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内 容 提 要 


随 着 各 行 各 业 对 大 数据 实时 查询 的 需求 持续 增长 ， 数 据 查 询 及 分 析 引 擎 正 变 得 不 可 或 


缺 。Presto 是 由 Facebook 开源 的 高 性 能 分 布 式 SQL 查询 引擎 ， 














其 用 户 包 括 Netflix、Airbnb、 


LinkedIn、Twitter、Uber 等 知名 公司 。 本 书 由 Presto 的 核心 开发 人 员 参 与 撰写 ， 教 你 系统 地 学 


习 Presto 的 用 法 。 书 中 内 容 涵 盖 Presto 的 安装 、 设 计 理 念 、 查 询 操作 、 最 佳 实践 、 与 主要 云 平 














台 的 结合 等 。 本 书 分 为 三 大 部 分 : 第 一 部 分 介绍 Presto 的 基础 知识 ; 第 二 部 分 更 进一步 ， 介 绍 
Presto 架构 、 集 群 部 署 、 与 数据 源 的 连接 等 ; 第 三 部 分 讲解 安全 配置 以 及 Presto 的 实际 用 例 。 你 
可 以 通过 本 书 学 会 针对 不 同 的 数据 源 快速 执行 交互 式 SQL 数据 分 析 ， 并 利用 Presto 管理 和 使 用 








海量 数据 。 


本 书 适合 数据 分 析 师 和 其 他 大 数据 从 业 人 员 阅 读 。 
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O’Reilly 以 “分 享 创 新 知识 、 改 变 世 界 ” 为 己任 。40 多 年 来 我 们 一 直 向 企业 、 个 人 提供 成 
功 所 必需 之 技能 及 思想 ， 激 励 他 们 创新 并 做 得 更 好 。 


O’Reilly 业务 的 核心 是 独特 的 专家 及 创新 者 网 络 ， 众 多 专家 及 创新 者 通过 我 们 分 享 知识 。 
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业界 评论 
“O’Reilly Radar 博客 有 口 富 碑 。” 
Wired 





“O’Reilly 凭借 一 系列 非凡 想法 〔( 真 希望 当初 我 也 想到 了 ) 建立 了 数 百 万 美元 的 业务 。” 


-Business 2.0 





“O’"Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
一 一 CRN 


“一 本 O"Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 
Jrish Times 





“Tim 是 位 特 立 独 行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 领域 ， 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 :“ 如 果 你 在 路 上 过 到 岔路 口 ， 那 就 走 小 路 。 ”回顾 过 去 ，Tim 
似乎 每 一 次 都 选择 了 小 路 ,而且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 也 不 错 。” 


-Linux Journal 





本 书 赞誉 


“这 本 书 介 绍 了 何谓 Presto， 以 及 能 让 你 将 其 运用 自如 的 所 有 关键 知识 。X 





Dain Sundstrom 和 David Phillips 
Presto 之 父 ，Presto 软件 基金 会 发 起 人 





“Presto 在 Pinterest 的 数据 分 析 中 发 挥 了 关键 作用 ， 你 可 以 通过 这 本 书 学 习 从 使 用 场景 到 如 
何 大 规模 运行 Presto 集群 在 内 的 重要 知识 。 





Ashish Kumar Singh 
Pinterest 大 数据 查询 处 理 平台 技术 负责 人 


“对 于 现代 云 架 构 ， 无 论 是 社区 构建 还 是 数据 的 快速 分 析 处 理 技术 ，Presto 都 设置 了 很 高 的 
标杆 。 如 果 想 构建 现代 化 的 分 析 技 术 栈 ， 那 么 这 本 书 值 得 一 读 。 








Jay Kreps 
Apache Kafka 联合 创作 者 ，Confluent 联合 创始 人 和 首席 执行 官 








“Presto 免除 了 编写 代码 来 管理 分 布 式 查 询 处 理 的 负担 ， 从 而 为 学 术 界 和 工业 界 的 从 业者 节 
省 了 大 量 时 间 。 从 如 此 高 质量 的 开源 分 布 式 SQL 引擎 入 手 ， 我 们 可 以 专注 于 在 新 领域 中 的 
创新 工作 ， 而 不 必 为 每 一 个 新 的 分 布 式 数据 系统 项 目 重新 发 明 轮 子 ， 对 此 我 们 十 分 感激 。” 

















Daniel Abadi 
马里 兰 大 学 帕克 分 校 计 算 机 科学 系 教授 





“ 近 些 年 ，Presto 社区 成 长 迅速 。 作 为 又 一 款 SQL-on-Hadoop 查询 引擎 ， 它 兼 具 优秀 的 性 
能 、 易 用 的 接口 和 简洁 的 设计 。 国 内 外 包括 阿里 巴巴 在 内 的 许多 公司 使 用 它 ， 其 优良 的 架 
构 也 让 用 户 很 容易 进行 定制 和 扩展 。 这 本 书 既 可 以 作为 学 习 Presto 的 实战 入 门 指南 ， 也 可 
以 当 作 和 手册 供 随时 查阅 。 无 论 你 之 前 是 否 使 用 过 Presto， 相 信 你 都 能 从 中 受益 。 











一 一 曹 伟 
PolarDB 创始 人 ， 阿 里 巴巴 研究 员 


“Presto 如 何 超越 一 时 友 动 的 Impala 和 拥 熏 众多 的 Spark 成 为 交互 式 分 析 的 龙头 ?人 带 着 这 个 
疑问 ， 我 快速 看 完了 全 书 ， 颇 有 点 后 知 后 觉 、 相 见 恨 晚 的 感觉 。Presto 一 改 大 数据 的 案 晶 ， 
基于 SQL-on-Anything 的 理念 和 开源 开放 的 工程 实践 对 接 大 小 各 种 数据 源 ， 降 低 了 解决 实 
际 问题 的 门槛 ， 难 怪 大 家 都 喜欢 。 这 本 书 翻译 流畅 ， 紧 跟 业 界 进 展 。 开 源 大 数据 爱好 者 可 
以 先 不 要 急 着 掉 进 源 代码 细 市 里 ， 而 是 从 这 本 书 的 内 容 起 步 ， 从 问题 和 场景 和 人手 ， 搞 懂 大 
数据 。” 














一 一 郑 氏 
Apache Hadoop PMC 成 员 ， 阿 里 巴巴 高 级 技术 专家 





“Presto 引擎 在 大 数据 领域 的 重要 性 不 言 而 喻 ， 但 参考 资料 屈指 可 数 ， 这 本 书 正 是 大 家 期 待 
的 那 本 “官方 指南  。 无 论 是 SQL 编写 、 技 术 调研 、 运 维 部 署 ， 还 是 二 次 开发 ， 都 值得 一 
读 。 书 中 第 三 部 分 为 企业 级 应 用 做 了 详细 解答 ， 是 一 大 亮点 。 
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译 者 序 


对 大 数据 领域 感 兴趣 的 读者 您 怕 已 经 对 它 的 历史 非常 熟悉 了 : 最 初 ， 由 Google 发 表 的 关 
于 MapReduce、GFS 和 BigTable 等 主题 的 论文 衍生 出 了 由 Hadoop、HDFS、HBase 等 组 件 
组 成 的 Hadoop 生态 系统 。 之 后 ， 包 括 Apache Hive、Apache Spark 和 Apache Flink 在 内 的 
各 种 工具 如 雨后春笋 一 般 涌 现 出 来 。 它 们 有 的 适合 用 来 进行 批 数据 处 理 ， 有 的 可 以 进行 实 
时 数据 分 析 ， 有 的 支持 分 布 式 事务 ， 满 足 了 大 数据 处 理 方方面面 的 需求 。 在 这 些 系统 中 ， 
有 一 类 支持 SQL 数据 查询 的 数据 处 理 系统 非常 重要 : 这 类 系统 允许 用 户 使 用 标准 SQL 对 
其 数据 仓库 中 的 数据 进行 查询 ， 无 论 是 技术 人 员 还 是 数据 分 析 师 都 可 以 方便 地 使 用 。 


Presto 正 是 这 一 类 系统 中 的 佼佼 者 。 


说 到 Hadoop 生态 系统 中 的 SQL 查询 处 理 引擎， 就 不 得 不 先 提 到 Apache Hive 一 个 可 以 
将 用 户 输入 的 SQL 查询 翻译 成 如 MapReduce、Spark 等 计算 模型 的 任务 ， 并 在 集群 中 调度 和 
执行 的 系统 。 长 期 以 来 ，Apache Hive 都 是 在 Hadoop 集群 上 执行 SQL 查询 的 标准 组 件 。 


本 书 所 介绍 的 Presto 和 Apache Hive 一 样 ， 都 是 从 Facebook 内 部 孵化 出 来 的 。 它 早期 的 设 
计 目 标 就 是 解决 Apache Hive 的 一 些 主要 问题 ， 尤 其 是 要 提高 查询 的 执行 性 能 。 正 因为 如 
此 ，Presto 在 很 多 方面 兼容 Apache Hive， 但 又 有 所 不 同 。 在 本 书 中 ， 你 可 以 详细 了 解 到 二 
者 设计 上 的 异同 和 产生 的 效果 。 简 单 来 说 ，Presto 提供 了 一 个 查询 性 能 远 超 Apache Hive， 
适用 于 交互 式 查询 和 快速 数据 处 理 的 平台 。 它 还 支持 联邦 查询 ， 使 得 用 户 可 以 将 分 散在 
系统 各 处 的 数据 孤岛 整合 起 来 ， 成 为 统一 的 数据 查询 接 和 点， 方便 用 户 管理 各 类 数据 。 在 
很 多 企业 和 组 织 里 ，Presto 已 经 取代 Apache Hive 成 为 各 个 部 门 接 入 数据 系统 的 统一 接口 ， 
每 天 满足 成 千 上 万 次 的 查询 需求 。 


本 书 的 第 一 部 分 提供 了 对 Presto 的 简要 介绍 和 使 用 说 明 ， 你 可 以 从 中 了 解 到 Presto 的 历史 
发 展 、 主 要 功能 以 及 如 何 简单 地 安装 和 使 用 它 。 本 书 的 第 二 部 分 是 为 进 阶 用 户 准 备 的 ， 它 
介绍 了 Presto 的 内 部 构造 、 基 本 原理 、 部 署 配置 、 连 接 器 和 SQL 语句 的 使 用 等 。 这 部 分 内 
容 全 面 而 详细 地 介绍 了 使 用 Presto 的 各 种 细节 ， 是 本 书 的 精华 所 在 。 学 习 完 这 一 部 分 的 知 
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识 ， 你 应 该 具备 正确 使 用 和 调 优 Presto 的 大 部 分 技能 。 这 一 部 分 也 很 适合 作为 速 查 手 册 使 
用 。 本 书 的 第 三 部 分 提供 了 在 生产 环境 部 署 Presto 必 备 的 知识 ， 帮 助 你 配置 安全 特性 、 与 
其 他 工具 集成 和 进行 集群 部 署 ， 还 提供 了 一 些 真 实 世 界 中 的 部 署 案例 。 建 议 即 将 在 生产 环 
虞 中 部 署 Presto 的 读者 将 这 一 部 分 作为 参考 。 


在 阅读 完 本 书后 ， 你 不 但 可 以 编写 适合 于 Presto 执行 的 SQL 查询 ， 熟 悉 Presto 运 维 方面 的 
各 种 知识 ， 而 且 还 可 以 对 Presto 的 内 部 构造 有 所 了 解 。 希 望 本 书 能 为 对 Presto 感 兴趣 的 读 
者 提供 一 份 好 的 实战 指南 ， 帮 助 各 位 读者 理解 Presto 的 方方面面 。 


Presto 的 繁 末 发 展 离 不 开 它 的 开源 社区 : 在 Facebook 内 部 上 线 之 后 不 久 它 就 宣告 开源 。 实 
际 上 ，Presto 从 开发 伊始 就 将 开源 作为 目标 之 一 。 现 在 ，Presto 丰富 的 生态 系统 已 经 被 构 
建 出 来 ， 这 个 生态 系统 包括 数 不 清 的 开源 插件 和 库 、 提 供 支 持 服务 的 组 织 和 企业 ， 以 及 
云 服务 提供 商 等 。 目 前 ，Presto 的 开源 版 本 主要 有 两 个 分 支 ， 一 个 是 由 Facebook 主导 的 
PrestoDB 项 目 ， 另 一 个 是 由 Presto 软件 基金 会 和 部 分 Presto 创始 人 维护 的 PrestoSQL 项 
目 。 值 得 注意 的 是 ， 后 者 已 于 2020 年 12 月 更 名 为 Trino 并 继续 发 展 。 本 书 的 主要 作者 来 
自 PrestoSQL/Trino 项 目 ， 所 讨论 的 主要 内 容 也 基于 PrestoSQL/Trino 项 目的 实现 。 目 前 来 
看 ， 这 两 个 项 目 还 并 未 产生 大 的 分 化 ， 本 书 中 大 部 分 的 讨论 可 以 同时 应 用 在 这 两 个 项 目 
上 ， 但 仍 建议 你 在 阅读 此 书 和 开始 使 用 Presto 时 仔细 分 辨 项 目 和 版 本 的 差别 。 


最 后 ， 还 要 特别 感谢 在 本 书 翻译 和 出 版 过 程 中 参与 审 校 、 排 版 和 付出 其 他 辛勤 劳动 的 各 位 
工作 人 员 。 是 你 们 的 努力 使 得 本 书 可 以 以 如 此 完整 的 面貌 呈现 给 读者 。 




































































张 晨 ” 黄 鹏 程 ” 傅 宇 
2021 年 1 月 








回顾 往昔 ， 这 是 多 么 令 人 惊讶 的 旅程 ! 2012 年 在 Facebook 启动 Presto 这 个 项 目 时 ， 我 们 
坚定 地 认为 我 们 将 创造 一 个 有 用 的 产品 。 我 们 从 一 开始 就 计划 将 其 变 成 一 个 成 功 的 开源 项 
目 并 建立 活跃 的 社区 。2013 年 ， 我 们 以 Apache 许可 证 开源 了 Presto。 

然而 ， 从 那 时 起 ，Presto 走 过 的 路 程 已 远 超 我 们 的 想象 。 我 们 为 这 个 项 目的 社区 所 取得 的 
成 就 感到 骄傲 ， 但 更 重要 的 是 ， 社 区 所 获得 的 积极 回应 和 帮助 令 我 们 十 分 感动 。 

Presto 的 成 长 突 飞 独 进 ， 也 为 其 社区 的 用 户 做 出 了 很 多 贡献 。 你 可 以 在 世界 各 地 找到 
Presto 的 社区 成 员 ，Presto 的 开发 者 则 分 布 在 巴西 、 加 拿 大 、 中 国 、 德 国 、 印 度 、 以 色 列 、 
上 日本、 波兰、 新加坡、 美国、 英国 以 及 许多 其 他 国家 和 地 区 。 

在 2019 年 年 初 启 动 的 Presto 软件 基金 会 是 另 一 个 重要 的 里 程 碑 。 这 个 非 营利 组 织 致 力 于 
Presto 这 一 开源 分 布 式 SQL 引擎 的 发 展 和 进步 ， 并 确保 此 项 目 在 接 下 来 的 几 十 年 保持 开 
源 、 协 作 和 独立 的 状态 。 

今天 ， 在 Presto 软件 基金 会 启动 一 年 之 后 ， 回 顾 过 去 一 年 的 发 展 ， 可 以 看 到 社区 变 得 更 加 
壮大 ， 所 做 的 贡献 也 越 来 越 多 。 

很 高 兴 在 O'Reilly 出 版 社 的 帮助 下 ， 马 特 、 曼 弗 雷 德 和 马丁 三 位 作者 写 了 这 本 有 关 Presto 
的 书 。 书 中 对 Presto 做 了 非常 精彩 的 介绍 ， 并 传授 了 开始 使 用 Presto 所 需 的 所 有 知识 。 

请 享受 这 段 深入 理解 Presto 及 其 相关 领域 的 旅程 ， 相 关 领 域 包括 商业 智能 、 报 表 、 仪 表盘 
创建 、 数 据 仓库 、 数 据 挖 据 、 机 器 学 习 等 。 


此 外 ， 别 忘记 探索 我 们 在 Presto 官方 网 站 和 社区 聊天 室 等 处 提供 的 额外 资源 和 帮助 。 





















































Presto 社区 欢迎 你 加 入 1! 


Dain Sundstrom 和 David Phillips 
Presto 项 目 和 Presto 软件 基金 会 创始 人 
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关于 本 书 


本 书 是 有 关 Presto 分 布 式 查 询 引 擎 的 第 一 本 也 是 十 分 重要 的 一 本 书 ， 面 向 初学 者 和 已 经 在 
使 用 Presto 的 用 户 。 理 想 情况 下 ， 你 已 经 对 数据 库 和 SQL 有 一 定 的 了 解 ， 但 如 果 没 有 相关 
知识 ， 你 也 可 以 在 学 习 本 书 的 过 程 中 查阅 相关 内 容 。 无 论 你 的 专业 程度 如 何 ， 我 们 都 相信 
你 能 从 本 书 中 学 到 一 些 新 知识 。 


本 书 的 第 一 部 分 首先 介绍 Presto， 之 后 讲解 如 何 快速 启动 和 运行 Presto， 以 便 开 始 学 习 使 
用 它 ， 有 具体 内 容 包括 命令 行 界 面 的 安装 和 初次 使 用 ， 基 于 JDBC 的 其 他 客户 端 应 用 程序 和 
Web 应 用 程序 (如 SQL 数据 库 管 理 或 仪表 盘 和 报表 工具 ) 的 初次 使 用 。 















































Presto 刀 架构 、 集群 部 署 、 到 数据 源 的 诸多 连接 器 ， 以 及 Presto 的 主要 功 














第 三 部 分 介绍 在 生产 环境 中 运行 和 部 署 Presto 集群 时 需要 了 解 的 其 他 方面 。 具 体内 容 包 括 
Web UI 的 使 用 、 安 全 配置 ， 以 及 一 些 组 织 使 用 Presto 的 真实 案例 。 


排版 约定 
本 书 使 用 以 下 排版 约定 。 


黑体 
表示 新 术语 。 








等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 国 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变量 、 话 句 
和 关键 字 等 。 





XiX 


等 宽 粗 体 (constant width bold) 
表示 应 由 用 户 输入 的 命令 或 其 他 文本 。 


等 宽 斜 体 (constant width italic) 
表示 应 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 














此 图 标 表 示 提 示 或 建议 。 











此 图 标 表示 一 般 注 记 。 











此 图 标 表示 警告 或 警示 。 











代码 示例 、 授 权 和 引用 说 明 
本 书 的 补充 材料 在 1.4.6 节 有 详细 介绍 。 


如 果 你 有 技术 问题 ， 或 对 示例 代码 的 使 用 有 疑问 ， 可 以 通过 社区 聊天 室 (参见 1.4.3 节 ) 联 
系 我 们 ， 或 在 本 书 的 仓库 中 提交 issue (问题 )。 


本 书 是 要 帮 你 完成 工作 的 。 通 常 ， 你 可 以 在 程序 和 文档 中 直接 使 用 本 书 提供 的 示例 代码 。 除 
非 你 要 使 用 大 量 代码 ， ee 例如 ， 编 程 时 用 到 书 中 的 几 个 代码 片段 
无 须 获 得 许可 ， 但 将 示例 代码 出 售 或 传播 则 需要 获得 许可 ， 引 用 示例 代码 来 回答 问题 无 须 获 
得 许可 ， 但 将 大 量 示例 代码 用 于 产品 文档 中 则 需要 获得 许可 。 


我 们 很 希望 但 不 强制 要 求 你 在 引用 本 书 的 内 容 时 加 上 引用 说 明 。 引 用 说 明 通 常 包括 : 标 
题 、 作 者 、 出 版 社 和 ISBN。 例 如 “Presto: The Definitive Guide by Matt Fuller Manfred Moser, 
and Martin Traverso (O’Reilly). Copyright 2020 Matt Fuller, Martin Traverso, and Simpligility 
Technologies Inc., 978-1-492-04427-7”。 


















































如 果 你 觉得 自己 对 书 中 示例 代码 的 使 用 超出 了 上 述 授 权 的 范围 ， 请 通过 permissions@oreilly. 
com 联系 我 们 。 
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O'Reilly 在 线 学 习 半 全 (O'Reilly Online Learning ) 


OREILLY “ 多 年 来 ，O’Reilly Media 致力 于 提供 技术 和 商业 培训 、 知 识 和 
卓越 见解 ， 来 帮助 众多 公司 取得 成 功 。 


我 们 拥有 独一无二 的 专家 和 革新 者 组 成 的 庞大 网 络 ， 他 们 通过 图 书 、 文 章 、 会 议和 我 们 的 
在 线 学 习 平 台 分 享 他 们 的 知识 和 经 验 。O’Reilly 的 在 线 学 习 平 台 允 许 你 按 需 访问 现场 培训 
课程 、 深 入 的 学 习 路 径 、 交 互 式 编程 环境 ， 以 及 OReilly 和 200 多 家 其 他 出 版 商 提供 的 大 
量 文 本 和 视频 资产。 有关 的 更 多 信息 ， 请 访问 https://oreilly.com。 


联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 

北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 

奥 莱 利 技术 咨询 (北京 ) 有 限 公司 
O’Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 表 、 示 
例 代 码 以 及 其 他 信息 。 可 以 通过 链接 https://oreil.ly/PrestoTDG 访问 该 页 面 。 












































对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : bookquestions@oreilly.com。 

要 了 解 更 多 O’Reilly 图 书 、 培 训 课程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : http:/oreillycom。 
我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly。 

请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia。 


我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia。 


致谢 

我 们 要 感谢 Presto 社区 的 每 个 人 ， 感 谢 你 们 使 用 Presto、 推 广 它 、 帮 助 其 他 的 用 户 、 为 项 
目 做 贡献 ， 甚 至 提交 代码 和 文档 。 作 为 社区 的 一 员 ， 我 们 十 分 激动 ， 并 期 待 未 来 大 家 一 起 
获得 更 多 的 成 功 。 
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谢 Starburst 为 Presto 项 目 、 使 用 Presto 的 客户 以 及 本 书 作 者 (也 是 Starburst 团队 成 员 ) 所 
做 的 工作 ， 以 及 提供 的 资源 、 支 持 和 稳定 性 。 


关于 本 书 ， 我 们 要 特别 感谢 所 有 在 想法 、 反 馈 和 审阅 方面 提供 过 帮助 的 人 。 下 面 是 一 个 可 
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此 外 ， 本 书 的 三 位 作者 还 想 要 表达 他 们 个 人 的 感激 之 情 。 
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扫描 如 下 二 维 码 ， 即 可 购买 本 书 中 文 版 电子 版 。 




















第 一 部 分 
Presto 入 门 





Presto 是 一 个 SQL 查询 引擎 ， 它 使 得 用 SQL 访问 任何 数据 源 成 为 可 能 。 你 可 以 使 用 Presto 
通过 水 平 扩展 查询 处 理 的 方式 来 查询 大 型 数据 集 。 








在 第 一 部 分 中 ， 你 将 了 解 Presto 及 其 应 用 场景 ， 然 后 学 习 Presto 的 安装 和 运行 ， 最 后 了 解 
可 以 连接 到 Presto 并 查询 数据 的 工具 。 这 一 部 分 将 使 用 一 个 最 小 化 的 Presto 安装 ， 以 便 你 
尽快 开始 使 用 它 。 
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Presto 介 绍 








你 也 许 听 说 过 Presto  ， 然 后 找到 了 本 书 ， 抑 或 只 想 浏 览 第 1 章 的 内 容 ， 以 便 决 定 是 否 继 
续 研 读 。 本 章 将 讨论 快速 增长 的 海量 数据 带 来 的 诸多 问题 ， 以 及 隐藏 在 这 些 数 据 中 的 价 
值 。Presto 是 处 理 这 些 数据 的 关键 工具 ， 让 你 可 以 使 用 已 证 明 十 分 成 功 的 结构 化 查询 语言 
(structured query language，SQL) 及 其 相关 工具 来 访问 数据 。 








Presto 的 设计 和 特性 能 让 你 更 深入 地 理解 数据 。 你 不 但 可 以 更 快 地 获得 见解 ， 而 且 还 可 以 
获得 之 前 因 成 本 太 高 或 耗 时 太 长 而 无 法 获得 的 信息 。 同 时 ， 你 使 用 了 更 少 的 资源 并 因此 市 
省 了 预算 。 利 用 节省 下 来 的 资源 ， 你 还 能 从 数据 中 获得 更 多 见解 ! 


虽然 本 书 也 会 介绍 很 多 外 部 资源 ， 但 我 们 希望 你 可 以 先 从 本 书 开始 学 习 。 


米 他 二 下 xs 目 和 站 | 旦 

1.1 大 数据 带 来 的 问题 

每 个 人 都 在 采集 越 来 越 多 的 数据 ， 这 些 数据 涉及 设备 指标 、 用 户 行为 跟踪 、 商 业 交 易 、 地 
理 位 置 、 软 件 及 系统 测试 过 程 和 工作 流 等 。 通 过 理解 和 使 用 这 些 数 据 所 获得 的 洞 见 能 够 决 
定 一 项 计划 乃至 一 家 公司 的 成 败 。 














同时 ， 数 据 存储 机 制 日 益 多 样 : 关系 数据 库 、NoSQL 数据 库 、 文 档 数据 库 、 键 值 存储 和 对 
象 存储 系统 等 。 对 于 当今 的 组 织 机 构 ， 它 们 当中 很 多 是 必 备 的 ， 只 使 用 其 中 一 种 系统 不 再 
可 行 了 。 应 对 如 图 1-1 所 示 的 情形 是 一 项 令 人 生 县 的 艰巨 任务 。 




















注 1: Presto 包含 两 个 分 支 : PrestoDB 和 PrestoSQL。2020 年 12 月 ，PrestoSQL 正式 更 名 为 Trino。 本 书 内 
容 适 用 于 所 有 Presto 分 支 。 一 一 编者 注 


























图 1-1: 大 数据 可 能 会 让 人 难以 招架 


此 外 ， 这 些 系统 不 允许 你 使 用 标准 工具 来 查询 和 检视 数据 。 面 向 特定 系统 的 查询 语言 和 分 析 
工具 比比 皆 是 。 与 此 同时 ， 你 的 商业 分 析 师 已 习惯 使 用 业界 标准 一 一 SQL， 无 数 强大 的 工具 
依赖 SQL 来 分 析 数 据 、 创 建 仪表 盘 、 制 作 富 文 本 报告 以 及 完成 其 他 商业 智能 工作 。 

数据 分 散在 各 个 白 咏 上 ， 其 中 有 些 系统 其 至 不 能 提供 满足 分 析 所 需 的 查询 性 能 ， 其 他 一 些 
系统 则 将 数据 存储 在 单一 庞大 的 系统 上 ， 因 而 不 能 像 现 代 的 云 应 用 程序 一 样 横向 扩展 。 没 
有 这 样 的 能 力 ， 你 就 只 能 缩小 潜在 的 使 用 场景 和 用 户 数量 ， 因 此 降低 了 数据 的 实用 价值 。 
对 全 世界 的 组 织 来 说 ， 创 建 和 维护 大 型 专用 数据 仓库 的 传统 方法 成 本 高 唱 。 通 常 ， 对 很 多 
用 户 和 使 用 模式 来 说 ， 这 种 方法 也 显得 缓慢 上 且 笨 拙 。 

显而易见 的 是 ， 一 个 系统 如 果 可 以 释放 所 有 这 些 价值 ， 就 将 带 来 巨大 的 机 会 。 


1.2 Presto 来 救 场 


Presto 能 解决 上 述 所 有 问题 。 通 过 支持 不 同系 统 上 的 联邦 查询 、 并 行 查询 和 横向 集群 扩展 
等 功能 ， 它 还 为 我 们 提供 了 更 多 可 能 性 。Presto 项 目的 标志 如 图 1-2 所 示 。 

















presto 











图 1-2， Presto 的 标志 
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Presto 是 一 个 开源 的 分 布 式 SQL 查询 引擎 ， 它 是 为 了 高 效 查 询 不 同系 统 和 各 种 规模 (从 GB 
级 到 PB 级 ) 的 数据 源 而 从 头 开始 设计 和 编写 的 一 套 系统 。 使 用 Presto， 人 们 不 需要 在 快速 
但 昂贵 的 商业 解决 方案 和 缓慢 〈 且 需要 更 多 硬件 ) 但 “免费 ”的 解决 方案 之 间 做 出 选择 。 


1.2.1 为 性 能 和 规模 而 生 

Presto 使 用 分 布 式 执行 来 快速 查询 海量 数据 。 如 果 有 TB 级 乃至 PB 级 的 数据 需要 查询 ， 
你 可 能 会 使 用 Apache Hive 等 工具 ， 这 些 工具 基于 Hadoop 和 Hadoop 分布 式 文件 系统 
(Hadoop Distributed File System，HDFS) 工作 。 与 这 些 工 具 相 比 ，Presto 可 以 更 高 效 地 查 
询 数 据 。 

分 析 师 应 该 使 用 Presto， 因 为 他 们 期 望 SQL 查询 可 以 在 几 毫 秒 〈 实 时 数据 分 析 )、 几 秒 或 几 分 
钟 内 返回 结果 。Presto 支持 SQL，SQL 通常 用 在 数据 仓储 、 数 据 分 析 、 海 量 数据 聚合 和 报表 
生成 等 任务 上 ， 这 些 任 务 通常 被 归 类 为 联机 分 析 处 理 (online analytical processing，OLAP)。 



































尽管 Presto 能 理解 并 高 效 地 执行 SQL， 但 它 并 不 是 一 个 数据 库 ， 因 为 它 并 不 包含 自己 的 
数据 存储 系统 。 它 无 意 成 为 一 个 通用 关系 数据 库 ， 并 取代 Microsoft SQL Server、Oracle 数 
据 库 、MySQL 或 PostgreSQL。 此 外 ，Presto 也 不 适用 于 联机 事务 人 处理 (online transaction 
processing，OLTP)。 许 多 为 数据 仓储 和 数据 分 析 任 务 设计 和 优化 的 数据 库 也 是 如 此 ， 如 


Teradata、Netezza、Vertica 和 Amazon Redshift 等 。 

















Presto 同时 使 用 了 众所周知 的 技术 和 新 颖 的 技术 来 执行 分 布 式 查询 ， 这 些 技术 包括 内 存 并 
行 处 理 、 跨 集群 节点 管线 执行 、 多 线程 执行 模型 (以 充分 利用 所 有 CPU 核心 )、 高 效 的 扁 
平 内 存 数据 结构 (以 最 小 化 Java 的 垃圾 回收 ) 和 Java 字 节 码 生 成 等 。 本 书 不 会 详细 介绍 
Presto 内 部 的 复杂 实现 。 借 助 上 述 技术 ，Presto 用 户 可 以 以 比 其 他 方案 更 少 的 成 本 更 快 地 
获得 查询 结果 。 








1.2.2 SQL-on-Anything 

Presto 的 设计 初衷 是 用 来 查询 HDFS 上 的 数据 。 稍 后 可 以 看 到 ， 它 可 以 非常 高 效 地 完成 这 
一 任务 ， 而 且 并 未 止步 于 此 。 它 也 可 以 从 对 象 存 储 系统 、 关 系数 据 库 管 理 系 统 (RDBMS )、 
NoSQL 数据 库 和 其 他 系统 中 查询 数据 ， 如 图 1-3 所 示 。 


Presto 在 原 地 查询 数据 ， 无 须 事先 将 数据 迁移 集中 到 某 个 位 置 。 因 此 ，Presto 不 仅 可 以 查 
询 HDFS 和 其 他 分 布 式 对 象 存储 系统 中 的 数据 ， 而 且 还 可 以 查询 RDBMS 和 其 他 数据 源 。 
无 论 数 据 存放 在 何 处 ，Presto 都 可 以 查询 ， 因 此 它 可 以 取代 传统 、 昂 贵 和 笨重 的 抽取 一 变 
换 - 加载 (ETL) 过 程 ， 至少 可 以 帮 你 减轻 相关 任务 的 负担 。 显 然 ，Presto 并 非 另 一 个 
SQL-on-Hadoop 解决 方案 。 
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1-3: Presto 对 多 种 数据 源 的 SQL 支持 


对 象 存储 系统 包括 Amazon Web Services (AWS) 提供 的 Simple Storage Service (S3)、 
Microsoft Azure Blob Storage、Google Cloud Storage 和 S3 兼容 的 存储 系统 (如 MinIO 和 
Ceph)。Presto 可 以 查询 传统 的 RDBMS ， 如 Microsoft SQL Server、PostgreSQL 、MYySQL、 
Oracle、Teradata 和 Amazon Redshift， 还 可 以 查询 NoSQL 数据 库 系 统 ， 如 Apache 
Cassandra、Apache Kafka、MongoDB 和 Elasticsearch。Presto 几乎 可 以 查询 任何 东西 ， 是 
一 个 真正 的 SQL-on-Anything 系统 。 


对 于 用 户 来 说 ， 这 意味 着 他 们 在 与 特定 系统 内 的 数据 进行 交互 时 ， 无 须 再 依赖 特定 的 查询 
语言 和 工具 。 他 们 可 以 简单 地 利用 Presto 和 已 有 的 SQL 技能 ， 利 用 已 经 十 分 熟悉 的 基于 
SQL 的 数据 分 析 、 仪 表盘 和 报表 工具 ， 查 询 那些 之 前 被 锁定 在 分 离 系统 中 的 数据 。 有 了 
Presto， 用 户 其 至 可 以 执行 跨越 多 个 系统 的 SQL 查询 。 


1.2.3 存储 与 计算 分 离 

Presto 没有 自己 的 存储 ， 它 只 是 在 数据 所 在 之 处 进行 查询 处 理 。 使 用 Presto 时 ， 存 储 和 计算 
是 分 离 的 ， 它 们 可 以 各 自 独 立地 扩展 。Presto 代表 计算 层 ， 底 层 的 数据 源 代表 存储 层 。 

这 使 得 Presto 可 以 基于 对 数据 的 分 析 需 求 来 扩展 和 缩减 计算 资源 。 你 无 须 移动 数据 或 根据 
当前 查询 的 需求 预 设 计算 资源 和 存储 资源 ， 也 无 须 随 着 查询 需求 的 变化 来 定期 变更 资源 的 
分 配 。 

Presto 可 以 通过 动态 扩展 计算 集群 的 规模 来 扩展 查询 能 力 ， 并 可 以 在 数据 源 中 数据 所 在 的 
位 置 查询 数据 。 借 助 这 一 特性 ， 你 可 以 极 大 地 优化 硬件 资源 需求 并 降低 成 本 。 


1.3 ” Presto 使 用 场景 


Presto 灵活 强大 的 特性 使 你 可 以 自行 决定 如 何 使 用 它 以 获得 最 佳 收 益 。 你 可 以 从 仅 用 它 解 
决 一 个 特定 的 小 问题 开始 ， 实 际 上 ， 大 部 分 Presto 用 户 是 这 样 开始 的 。 








6 | 第 1 章 





一 旦 你 或 者 你 所 在 组 织 中 的 其 他 Presto 用 户 熟悉 了 这 些 好 处 和 特性 ， 你 们 将 会 发 现 新 的 应 
用 场景 。 口 口 相传 ， 很 快 你 就 会 发 现 Presto 满足 了 访问 各 种 数据 源 的 各 种 需求 。 


在 下 面 的 几 节 中 ， 我 们 将 讨论 几 个 使 用 场景 。 记 住 ， 你 可 以 将 Presto 应 用 到 所 有 场景 。 此 
外 ， 仅 使 用 Presto 解决 某 个 特定 问题 也 完全 没有 问题 ， 只 要 准备 好 爱 上 Presto 并 在 之 后 频 
繁 使 用 它 即 可 。 











1.3.1 单一 的 SQL 分 析 访 问 点 
RDBMS 和 SQL 已 经 出 现 了 很 长 时 间 且 被 证 明 是 非常 有 用 的 。 没 有 它们 ， 任 何 组 织 都 无 法 
运作 。 实 际 上 ， 很 多 公司 会 运行 多 个 系统 。Oracle Database 和 IBM DB2 这 样 的 大 型 商业 数 
据 库 可 能 支撑 着 你 的 企业 软件 。 开 源 系统 ， 如 MariaDB 和 PostgreSQL， 可 能 用 于 其 他 解 
决 方案 或 者 一 些 内 部 应 用 程序 。 


作为 一 个 消费 者 和 分 析 师 ， 你 可 能 会 遇 到 数 不 清 的 问题 。 














。 有 时 你 甚至 不 知道 数据 在 哪儿 ， 只 有 凭借 公司 某 个 部 门 的 内 部 知识 或 组 织 内 多 年 的 工作 
经 验 ， 你 才能 找到 正确 的 数据 。 

。 为 了 查询 多 个 数据 库 ， 你 需要 使 用 不 同 的 连接 和 运行 多 种 SQL 方言 的 不 同 查询 。 这 些 
查询 看 起 来 很 相似 ,行为 上 却 不 同 ， 因 此 你 会 感到 困惑 ， 并 需要 了 人 解 其 中 的 细 市 。 

。 若 不 使 用 数据 仓库 ， 就 无 法 使 用 查询 合并 来 自 不 同系 统 的 数据 。 














Presto 可 以 帮 你 避免 这 些 问题 。 你 可 以 从 Presto 这 里 访问 所 有 这 些 数 据 库 。 








可 以 使 用 一 个 SQL 标准 来 查询 所 有 的 系统 Presto 支持 的 标准 化 SQL、 函 数 和 运算 符 。 
所 有 的 仪表 盘 和 分 析 工 具 以 及 其 他 商业 智能 系统 ， 都 可 以 指向 一 个 系统 
问 组 织 当 中 的 所 有 数据 。 

1.3.2 ”数据 仓库 和 数据 源 系统 的 访问 点 

当 一 个 组 织 需 要 更 好 地 理解 和 分 析 存 放 在 无 数 RDBMS 中 的 数据 时 ， 就 可 以 创建 和 维护 数 


据 仓库 系统 。 从 多 个 系统 中 抽取 的 数据 通过 一 个 复杂 的 ETL 过 程 (通常 使 用 长 时 间 的 批 处 
理 任务 ) ， 最 终 进 入 一 个 严格 受 控 的 、 巨 大 的 数据 仓库 。 


尽管 数据 仓库 在 很 多 情况 下 非常 有 用 ， 但 作为 一 个 数据 分 析 师 ， 你 会 面临 很 多 新 问题 。 


。 除了 原来 的 那些 数据 库 ， 你 的 工具 和 查询 现在 又 多 了 一 个 数据 接 入 点 。 
。 你 今天 就 要 用 的 数据 还 没 放 入 数据 仓库 。 加 载 数 据 的 过 程 痛苦 、 昂 贵 又 障碍 重重 。 


Presto 允许 你 添加 任何 数据 仓库 作为 数据 源 ， 就 像 其 他 关系 数据 库 一 样 。 





Presto， 并 访 
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如 果 想 深入 研究 数据 仓库 的 查询 ， 可 以 在 Presto 里 直接 完成 。 你 也 可 以 在 这 里 访问 数据 仓 
库 及 其 源 数据 库 系 统 ， 其 至 可 以 编写 将 它们 组 合 在 一 起 的 查询 。Presto 让 你 可 以 使 用 单个 
系统 查询 任何 数据 库 (包括 数据 仓库 、 源 数据 库 和 任何 其 他 数据 库 )。 











1.3.3 ”提供 对 任何 内 容 的 SQL 访 问 

只 使 用 RDBMS 的 日 子 早已 一 去 不 复 返 。 数 据 现在 存储 在 许多 针对 特定 使 用 场景 进行 优化 
的 不 同系 统 中 。 基 于 对 象 的 存储 、 键 值 存储 、 文 档 数据 库 、 图 数据 库 、 事 件 流 系统 和 其 他 
所 谓 的 NoSQL 系统 提供 了 独 有 的 特性 和 优势 。 


至 少 你 的 组 织 中 使 用 了 其 中 的 一 些 系 统 ， 所 保存 的 数据 对 理解 和 改进 业务 至 关 重 要 。 
当然 ， 所 有 这 些 系 统 还 要 求 你 使 用 不 同 的 工具 和 技术 来 查询 和 处 理 数据 。 





至 少 ， 这 是 一 项 学 习 曲 线 陡峭 的 复杂 任务 。 更 有 可 能 的 是 ， 你 最 终 只 触及 了 数据 的 表层 ， 
而 并 没有 真正 获得 完整 的 理解 。 你 缺乏 查询 数据 的 好 方法 ， 更 详细 地 可 视 化 和 分 析 数 据 的 
工具 很 难 找 或 根本 不 存在 。 


另外 ，Presto 允许 你 将 所 有 这 些 系统 作为 数据 源 进行 连接 。 它 使 用 标准 的 ANSI SQL 和 使 
用 SQL 的 所 有 工具 对 外 暴露 要 查询 的 数据 ， 如 图 1-4 所 示 。 








presto _ 洁 











图 1-4: 用 于 所 有 数据 源 的 多 个 使 用 场景 的 单一 SQL 访问 点 


得 益 于 Presto， 理 解 所 有 这 些 截 然 不 同 的 系统 中 的 数据 变 得 更 加 简单 ， 甚 至 第 一 次 成 为 
可 能 。 





1.3.4 ”联邦 查询 
将 所 有 的 数据 孤岛 都 暴露 给 Presto 是 向 理解 数据 迈 出 的 一 大 步 。 你 可 以 使 用 SQL 和 标准 工 
有 来 查询 所 有 这 些 内 容 ， 但 你 想 要 回答 的 问题 往往 需要 你 潜入 这 些 数据 扳 岛 ， 将 它们 的 一 
些 侧 面 抽取 出 来 ， 然 后 在 同一 个 地 方 将 其 组 合 起 来 。 


可 以 通过 Presto 的 联邦 查询 满足 上 述 需求 。 联 邦 查询 是 在 一 个 语句 中 引用 并 使 用 不 同 数据 
库 和 模式 (schema) 的 SQL 查询 ， 这 些 数据 库 和 schema 来 自 于 完全 不 同 的 系统 。 在 同一 
条 SQL 查询 中 ， 可 以 查询 Presto 中 可 用 的 所 有 数据 源 。 


你 可 以 定义 对 象 存储 中 的 用 户 追 踪 信 息 和 RDBMS 中 客户 数据 之 间 的 关系 。 如 果 键 值 存储 
包含 更 多 相关 信息 ， 你 也 可 以 把 它 添加 进 查询 。 














使 用 Presto 的 联邦 查询 ， 你 可 以 获得 通过 其 他 方式 无 法 获得 的 洞 见 。 


1.3.5 ”虚拟 数据 仓库 的 语义 层 
数据 仓库 系统 为 用 户 创 造 了 巨大 的 价值 ， 对 组 织 来 说 却 是 一 个 负担 。 
。 运行 和 维护 数据 仓库 是 一 个 巨大 且 昂 贵 的 项 目 。 


。 需要 专门 的 团队 运行 与 管理 数据 仓库 和 相关 的 ETL 过 程 。 
。 将 数据 导入 数据 仓库 需要 用 户 执行 烦琐 的 操作 ， 并 且 通 常 很 耗 时 。 











此 外 ，Presto 可 用 作 虚 拟 数据 仓库 。 使 用 这 一 工具 和 标准 ANSI SQL， 你 就 可 以 定义 语义 
层 。 一 旦 所 有 的 数据 库 都 设置 成 Presto 的 数据 源 ， 你 就 可 以 查询 它们 。Presto 提供 了 查询 
这 些 数据 库 所 需 的 计算 能 力 。 使 用 SQL 和 Presto 支持 的 函数 和 运算 符 ， 你 可 以 直接 从 数据 
源 获得 想 要 的 数据 。 在 使 用 数据 进行 分 析 之 前 ， 无 须 复 制 、 移 动 或 转换 它们 。 


多 亏 了 对 所 有 连接 数据 源 的 标准 SQL 支持 ， 你 能 以 更 简单 的 方式 创建 所 需 的 语义 层 ， 以 支 
持 来 自 工 具 和 终端 用 户 的 查询 。 这 一 语义 层 履 盖 了 所 有 底层 的 数据 源 ， 因 此 无 须 迁 移 任 何 
数据 。Presto 可 以 在 数据 源 和 存储 层 查 询 数据 。 


将 Presto 用 作 这 种 “动态 数据 仓库 ”为 组 织 提供 了 增强 现 有 数据 仓库 的 可 能 ， 甚 至 可 以 完 
全 避免 构建 和 维护 数据 仓库 。 


1.3.6 ”数据 湖 查询 引擎 

数据 湖 (data lake) 通常 指 的 是 一 个 巨大 的 HDFS 或 类 似 的 分 布 式 对 象 存 储 系统 ， 在 数据 
被 转 储 到 这 些 存 储 系统 时 ， 并 没有 特别 考虑 接 下 来 应 如 何 访 问 它们 。Presto 可 以 使 它们 成 
为 有 用 的 数据 仓库 。 实 际 上 ，Facebook 开发 Presto 的 目的 就 是 对 一 个 非常 大 的 Hadoop 数 
据 仓库 进行 更 快 和 更 强大 的 查询 ， 提 供 Hive 和 其 他 工具 无 法 提供 的 能 力 。 这 也 是 Presto 
Hive 连接 器 的 起 源 ，6.4 节 将 讨论 这 个 连接 器 。 
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现代 数据 湖 通 常 使 用 HDFS 之 外 的 其 他 对 象 存储 系统 ， 这 些 系统 来 自 云 供应 商 或 其 他 开源 
项 目 。Presto 能 使 用 Hive 连接 器 连接 它们 ， 无 论 数据 在 哪里 、 如 何 存储 ， 你 都 可 以 在 数据 
湖上 使 用 基于 SQL 的 数据 分 析 。 








1.3.7 ”SQL 转换 和 ETL 

基于 对 RDBMS 和 其 他 类 似 数 据 存储 系统 的 支持 ，Presto 也 可 用 于 迁移 数据 。 它 所 提供 的 
丰富 的 SQL 函数 ， 可 以 让 你 查询 数据 、 转 换 数 据 ， 并 将 数据 写 入 同一 个 数据 源 或 任何 其 他 
数据 源 。 

在 实践 中 ， 这 意味 着 你 可 以 从 对 象 存储 系统 或 键 值 存储 中 复制 数据 到 RDBMS， 并 进一步 
分 析 。 当 然 ， 你 也 可 以 转换 和 聚合 数据 ， 以 获得 新 的 理解 。 

反 过 来 ， 从 运转 中 的 RDBMS 或 Kafka 这 样 的 事件 流 系 统 当 中 读 取 数据 ， 并 将 它们 移动 到 
数据 湖 中 的 操作 也 很 常见 ， 这 可 以 减轻 多 个 分 析 师 对 RDBMS 进行 查询 的 负担 。ETL 过 程 
(现在 也 常 称 为 数据 准备 过 程 ) 可 作为 这 一 操作 的 重要 组 成 部 分 ， 以 提升 数据 质量 并 创建 
更 适合 查询 和 分 析 的 数据 模型 。 


在 这 一 场景 下 ，Presto 是 整个 数据 管理 解决 方案 的 关键 部 分 。 


1.3.8 ”更 快 的 响应 带 来 更 好 的 数据 见解 

复杂 的 问题 和 海量 数据 集 带 来 了 诸多 限制 。 将 数据 复制 并 加 载 到 你 的 数据 仓库 并 在 其 中 分 
析 它 们 最 终 会 过 于 昂贵 。 计 算 可 能 消 不 太 多 的 计算 资源 而 无 法 处 理 全 部 数据 ， 或 者 要 耗费 
数 天 才能 得 到 答案 。 


Presto 一 开始 就 避免 了 数据 复制 。Presto 的 并 行 计算 和 重度 优化 通常 能 为 你 的 数据 分 析 带 
来 性 能 提升 。 


如 果 原 来 需要 3 天 的 查询 现在 只 需 15 分 钟 就 可 以 完成 ， 那 么 执行 这 个 查询 便 是 有 价值 的 。 
从 这 些 结果 中 获得 的 知识 让 你 可 以 执行 更 多 的 查询 。 


总 之 ，Presto 更 快 的 处 理 速度 带 来 了 更 好 的 数据 分 析 和 结果 。 

































































1.3.9 大 数据 、 机 器 学 习 和 人 工 智能 

Presto 向 围绕 SQL 的 标准 工具 暴露 了 越 来 越 多 的 数据 ， 并 将 查询 扩展 到 海量 数据 集 上 ， 这 
使 其 成 了 大 数据 处 理 的 主要 工具 。 如 今 ， 大 数据 处 理 通 常 还 包括 统计 分 析 ， 由 于 机 器 学 
习 和 人 工 智能 系统 的 发 展 ， 处 理 的 复杂 度 也 随 之 上 升 。 基 于 对 及 语言 和 其 他 工具 的 支持 ， 
Presto 也 必 将 在 这 些 使 用 场景 中 占据 一 席 之 地 。 





























1.3.10 ”其 他 使 用 场景 
在 前 面 的 章节 里 ， 我 们 提供 了 对 Presto 使 用 场景 的 概览 。 新 的 场景 和 组 合 不 断 涌现 。 


在 第 13 章 中 ， 你 可 以 学 习 到 一 些 知名 公司 和 组 织 使 用 Presto 的 细节 。 我 们 将 这 些 信息 留 
在 本 书 的 结尾 ， 这 样 你 就 可 以 先 阅读 接 下 来 的 章节 ， 以 获得 理解 眼前 的 数据 所 必 有 备 的 
知识 bo 





1.4 Presto 资源 


在 本 书 之 外 ， 还 有 很 多 可 用 资源 可 以 帮 你 扩展 有 关 Presto 的 知识 。 这 一 市 列举 一 些 重要 的 
起 始点 ， 其 中 大 多 数 包含 丰富 的 信息 并 指向 更 多 的 资源 。 

















1.4.1 ”官方 网 站 

Presto 软件 基金 会 负责 管理 Presto 项 目的 开源 社区 并 维护 项 目 网 站 。 可 以 在 图 1-5 中 看 到 
Presto 官方 网 站 的 主页 。Presto 网 站 中 包含 文档 、 联 系 信息 、 发 布 最 新 消息 和 事件 的 社区 
博客 ， 以 及 很 多 其 他 信息 。 
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图 1-5: Presto 官方 网 站 的 主页 
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1.4.2 文档 

Presto 的 详细 文档 作为 代码 库 的 一 部 分 维护 ， 可 以 从 官方 网 站 上 获取 到 。 该 文档 既 包 括 概 
览 ， 又 包括 SQL 支持 、 国 数 、 运 算 符 、 连 接 器 、 配 置 等 方面 的 详细 参考 信息 ， 还 提供 包含 
最 新 修改 细节 的 发 布 记 录 。 你 可 以 从 Presto 文档 开始 。 
































1.4.3 ”社区 交流 
你 可 以 加 入 面向 新 手 、 进 阶 用 户 和 专家 用 户 ， 以 及 Presto 代码 贡献 者 和 维护 者 的 社区 聊天 
室 ，Presto 社区 非常 乐于 帮助 参与 者 ， 成 员 们 每 天 都 在 积极 地 互相 协作 。 





你 可 以 先 加 入 general 频道 ， 然 后 查看 专注 于 bug 分 类 、 版 本 发 布 和 开发 等 多 种 话题 的 无 
数 其 他 频道 。 





你 总 是 可 以 在 社区 聊天 室 找 到 马 特 、 曼 弗 雷 德 和 马丁 。 我 们 非常 乐意 听取 你 


总 是 
的 反馈 。 











1.4.4” 源 代码 、 许 可 证 和 版 本 
Presto 是 在 Apache License v2 协议 下 的 开源 项 目 ， 其 源 代 码 在 Git 仓库 中 ， 可 参见 GitHub 
网 站 的 prestosql/presto 页 面 。 





位 于 GitHub 网 站 Presto 页 面 的 prestosql 组 织 包 含 许 多 与 项 目 相 关 的 其 他 仓库 ， 比 如 官方 
网 站 、 客 户 端 、 其 他 组 件 的 源 代 码 或 用 于 贡献 者 许可 证 管理 的 仓库 。 


Presto 是 一 个 活跃 且 经 常 发 布 新 版 本 的 开源 项 目 。 使 用 最 新 版 本 时 ， 你 可 以 获得 最 新 特性 、 
bug 修复 和 性 能 提升 。 在 编写 本 书 时 Presto 的 最 新 版 本 是 330， 所 以 本 书 内 容 也 使 用 和 参考 
了 这 一 版 本 。 如 果 你 使 用 一 个 更 新 版 本 的 Presto， 它 的 工作 原理 应 该 能 和 本 书 中 描述 的 一 
样 。 尽 管 你 不 太 可 能 遇 到 问题 ， 但 对 于 任何 修改 ， 参 考 发 布 记录 和 文档 的 内 容 仍 非常 重要 。 




















1.4.5 贡献 


如 前 所 述 ，Presto 是 一 个 社区 驱动 的 开源 项 目 ， 我 们 欢迎 并 鼓励 你 为 其 贡献 自己 的 力量 。 
这 个 项 目的 社区 聊天 室 非 常 活跃 ， 你 可 以 随时 向 代码 提交 者 和 其 他 开发 者 寻求 帮助 。 





下 面 是 在 贡献 代码 之 前 需要 完成 的 一 些 任务 。 


。 查看 文档 中 的 开发 者 导 引 章节 。 
。 从 README 文件 中 学 习 从 源 代码 构建 项 目的 方法 。 
。 在 官方 网 站 的 社区 (Community) 页 面 找到 研究 论文 的 链接 ， 并 阅读 研究 论文 。 
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。 在 同一 个 页 面 上 浏览 行为 守则 (Code of Conduct) 。 
。 找到 一 个 标记 为 good first issue 的 问题 。 
签署 贡献 者 授权 协议 (contributor license agreement，CLA)。 





Presto 项 目 持续 接受 各 种 复杂 度 的 贡献 :从 小 的 文档 提升 、 新 的 连接 器 或 者 其 他 插件 ， 到 
深入 Presto 内 部 的 改进 等 。 

当然 ， 社 区 欢迎 你 使 用 Presto 或 围绕 Presto 做 的 任何 工作 。 这 类 工作 当然 也 包括 一 些 看 似 
不 相关 的 贡献 ， 如 编写 博客 文章 、 参 加 用 户 组 的 会 议 或 研讨 会 、 自 己 编写 和 维护 插件 (也 
许 是 用 来 连接 你 自己 使 用 的 一 个 数据 库 系统 ) 等 。 


总 之 ， 我 们 鼓励 你 和 Presto 团队 一 起 工作 并 参与 进来 ， 这 个 项 目的 成 长 和 营 基 有 赖 于 每 个 
人 的 贡献 。 我 们 也 时 刻 准 备 着 帮助 你 。 你 可 以 做 到 ! 














1.4.6 ”本 书 资源 


我 们 提供 了 一 些 有 关 本 书 的 资源 ， 如 配置 文件 示例 、SQL 查询 、 数 据 集 等 。 








可 以 在 本 书 图 灵 社区 页 画 
方式 下 载 。 


1.4.7 ”和 营 尾 花 数 据 集 
在 本 书后 面 的 章节 中 ， 你 将 遇 到 有 关 营 尾 花 和 这 尾 花 数 据 集 的 查询 示例 和 使 用 场景 。 该 数 
据 集 广为人知 ， 常 用 于 数据 科学 中 有 关 分 类 的 例子 。 


该 数据 集 包含 一 个 简单 的 表 ， 访 表 有 150 条 记录 ， 以 列 的 形式 提供 了 莹 片 长 度 、 苯 片 宽 
度 、 秦 汶 长 度 、 花 汶 宽 度 和 物种 的 值 。 


(http://ituring.cn/book/2768) 找到 这 些 资 源 ， 然 后 以 压缩 文件 的 









































这 个 数据 集 非 常 小 ， 可 以 让 用 户 方便 地 测试 和 执行 查询 ， 并 完成 一 系列 不 同 的 分 析 任务 。 因 
此 ， 该 数据 集 非 常 适合 学 习 ， 你 可 以 从 维基 百科 的 对 应 页 面 上 了 解 有 关 此 数据 集 的 更 多 信息 。 
本 书 的 仓库 包含 了 一 个 名 为 iris-data-set 的 目录 。 该 目录 中 存放 着 以 喜 号 分 隔 值 (CSV) 格 
式 保存 的 数据 ， 还 包含 了 用 于 创建 表 并 将 数据 插入 的 SQL 文件 。 读 完 第 2 章 和 3.1 节 后 ， 
以 下 指令 将 非常 容易 操作 。 

要 使 用 意 尾 花 数 据 集 ， 你 可 以 先 复制 etc/catalog/memory.properties 文件 到 Presto 的 安装 路 
径 下 并 重启 Presto。 














现在 ， 你 就 可 以 使 用 Presto CLI 将 数据 导入 iris 表 中 。 此 时 ，iris 表 存 在 于 default 
schema 下 ，default schema 又 存在 于 memory catalog 下 。 
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$ presto -f iris-data-set/iris-data-set.sql 
USE 

CREATE TABLE 

INSERT: 150 rows 


确认 数据 可 以 查询 : 
$ Presto --execute 'SELECT * FROM memory.default.iris; 
S51 1 "0.2","setosa" 
"49330 "O02 igetosa' 
VA ~、 "0.2","setosa" 


此 外 ， 你 还 可 以 使 用 任何 可 以 连接 到 Presto 的 SQL 管理 工具 来 运行 查询 ， 如 3.2 节 介 绍 的 
Java 数据 库 连 接 (JDBC) 了 驱动。 





第 8 章 和 第 9 章 包含 一 些 使 用 此 数据 集 的 查询 案例 ，6.8 市 提供 了 有 关内 存 连接 器 的 信息 。 


1.4.8 航班 数据 集 

与 斌 尾 花 数据 集 类 似 ， 本 书后 面 还 将 介绍 航班 数据 集 的 查询 案例 和 使 用 场景 。 这 一 数据 集 
比 刻 尾 花 数据 集 复杂 ， 它 包含 关于 航空 公司 、 机 场 及 其 他 信息 的 多 个 查询 表 ， 也 包含 有 关 
特定 航班 的 业务 数据 。 这 使 得 此 数据 集 适 用 于 使 用 Join 操作 的 更 复杂 的 查询 和 联邦 查询 
其 中 不 同 表 位 于 不 同 的 数据 源 )。 


此 数据 集 的 数据 来 自 美 国联 邦 航空 管理 局 (FAA)， 专 用 于 分 析 。flights 表 的 schema 比 
较 大 ， 表 1-1 展示 了 其 中 一 部 分 列 。 





























一 、 








表 1-1: 可 用 列 的 子 集 











数据 集中 的 每 一 行 表 示 从 美国 机 场 起 飞 或 到 达 美 国 机 场 的 航班 。 


1.5 Presto 简 史 


Facebook 于 2008 年 开源 了 Hive， 它 之 后 成 了 Apache Hive。Hive 在 Facebook 内 部 被 广泛 
用 于 在 其 巨大 的 Apache Hadoop 集群 上 执行 HDFS 上 的 数据 分 析 任务 。 


Facebook 的 数据 分 析 师 使 用 Hive 在 大 型 数据 仓库 上 执行 交互 式 查询 。 在 Facebook 开发 出 
Presto 之 前 ， 所 有 的 分 析 师 都 依赖 于 Hive， 但 Hive 并 不 适用 于 Facebook 这 种 大 数据 规模 
下 的 交互 式 查询 。2012 年 ，Facebook 的 Hive 数据 仓库 已 经 有 250PB 了 ， 它 每 天 需要 处 理 
数 百 个 用 户 的 成 千 上 万 条 查询 。 在 Facebook 内 部 ，Hive 逐渐 到 达 极 限 ， 并 且 它 无 法 查询 
其 他 数据 源 。 






































Facebook 从 零 开 始 设计 出 了 Presto， 以 便 在 其 数据 规模 下 快速 地 执行 查询 。Presto 不 是 创 
建 一 个 新 系统 并 将 数据 迁移 过 去 ， 而 是 通过 可 插 拔 的 连接 器 系统 ， 在 数据 存储 的 本 地 读 取 
数据 。Hive 连接 器 是 Presto 最 早 的 连接 器 之 一 (参见 6.4 节 )， 它 直接 查询 存储 在 Hive 数 


2012 年 ，4 个 Facebook 工程 师 开 始 研 发 Presto， 以 满足 Facebook 在 分 析 场 景 中 对 性 能 、 
扩展 性 和 延伸 性 上 的 需求 。Presto 最 初 就 是 要 构建 为 开源 项 目 。 在 2013 年 年 初 ，Presto 
的 初始 版 本 在 Facebook 内 部 生产 环境 上 线 。 同 年 秋天 ，Facebook 正式 开源 Presto。 鉴 于 
Presto 在 Facebook 内 部 取得 的 成 功 ， 许 多 其 他 大 型 互联 网 公司 也 开始 使 用 它 ， 如 Netflix、 
LinkedIn、Treasure Data 等 ， 并 还 有 更 多 的 公司 紧 随 其 后 。 














2015 年 ，Teradata 声明 将 向 Presto 投入 多 达 20 个 工程 师 来 贡献 代码 ， 他 们 专注 于 添加 企 
业 特 性 ， 如 安全 提升 和 生态 系统 工具 集成 。2015 年 晚 些 时 候 ，Amazon 开始 在 AWS Elastic 
MapReduce (EMR) 系统 中 添加 Presto。2016 年 ，Amazon 发 布 了 以 Presto 作为 主要 基石 
的 Athena 服务 。2017 年 ，Starburst 横 空 出 世 ， 它 是 一 家 专门 推广 Presto 的 公司 。 


2018 年 末 ，Presto 的 创始 人 离开 Facebook， 成 立 了 Presto 软件 基金 会 ， 以 使 该 项 目 保持 协 
作 与 独立 。 自 那 时 起 ，Presto 的 创新 和 增长 速度 都 更 上 一 层 楼 。 


今天 ，Presto 社区 欣欣 向 琳 ， 许 多 知名 公司 大 规模 地 使 用 它 。 这 个 项 目 现在 由 来 自 世 
界 各 地 许多 公司 的 开发 者 和 贡献 者 组 成 的 繁 末 社区 维护 ， 这 些 公司 包括 阿里 巴巴 集团 、 
Amazon、Appian、Gett、Google、Facebook、Hulu、Line、LinkedIn、Lyft、Motorola、 
Qubole、Red Hat、Salesforce、Starburst、Twitter、Uber、Varada、Walmart 和 Zoho。 





1.6 小结 
本 章 介 绍 了 Presto 以 及 它 的 一 些 特 性 ， 还 探索 了 其 可 能 的 使 用 场景 。 
在 第 2 章 中 ， 你 将 安装 Presto 并 运行 它 ， 将 它 连接 到 一 个 数据 产 ， 并 了 解 如 何 查询 数据 。 
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第 2 章 


安装 和 配置 Presto 





在 第 1 章 中 ， 你 了 解 了 Presto 及 其 可 能 的 使 用 场景 ， 现 在 可 以 开始 尝试 了 。 在 本 章 中 ， 你 
将 了 解 如 何 安装 Presto、 配 置 数据 源 并 查询 数据 。 











2.1 使 用 Docker 容 器 尝试 Presto 


Presto 项 目 提供 了 Docker 容器 ， 便 于 启动 配置 好 的 Presto 演示 环境 ， 用 于 初步 了 解 并 探 
索 Presto。 


要 在 Docker 里 运行 Presto， 需 要 先 在 机 器 上 安装 Docker， 这 可 以 从 Docker 的 官方 网 站 下 
载 ， 或 使 用 操作 系统 所 提供 的 包 管理 系统 。 


使 用 docker 命令 下 载 容器 镜像 ， 将 其 命名 为 presto-trial 并 保存 在 本 地 ， 然 后 在 后 台 运 
行 它 : 





























docker run -d --name presto-trial prestosql/presto 





现在 让 我 们 连接 到 容器 内 ， 并 使 用 Presto 命令 行 界面 (CLI) 执行 presto 命令 。 这 会 连接 
到 同一 容器 里 运行 着 的 Presto 服务 器 。 接 下 来 ， 在 命令 提示 行 中 可 以 执行 一 个 在 TPC-H 基 
准 测 试 数据 表 上 的 查询 。 























$ docker exec -it presto-trial presto 
presto> select count(*) from tpch.sf1.nation; 
_col0 


16 


Query 20181105 001601 00002_e6r6y，FINISHED，1 node 
Splits: 21 totaL，21 done (100.00%) 
0:06 [25 rows, OB] [4 rows/s, 0B/s] 








如 果 你 尝试 运行 Docker 并 遇 到 了 如 下 错误 : Query 20181217_115041_00000_ 
i6juj failed: Presto server is still initiaLizing， 请 等 待 一 段 时 间 后 重 
试 上 一 条 命令 。 








利用 SQL 知识 ， 你 可 以 进一步 探索 这 一 数据 集 。 可 以 使 用 help 命令 了 解 Presto CLI， 更 多 
有 关 使 用 CLI 的 信息 ， 参 见 3.1 节 。 





当 你 结束 探索 时 ， 可 以 使 用 quit 命令 退出 。 
执行 下 列 命令 就 可 以 停止 并 移 除 之 前 的 容器 : 


$ docker stop presto-trial 
presto-trial 

$ docker rm presto-trial 
presto-trial 





如 果 想 进一步 试验 ， 则 可 以 使 用 同样 的 命令 运行 Presto。 如 果 试 用 结束 并 不 再 需要 Docker 
镜像 ， 则 可 以 通过 下 列 命令 删除 所 有 相关 的 Docker 资源 ; 


$ docker rmi prestosqL/presto 
Untagged: prestosqL/presto:Latest 


Deleted: sha256:877b494a9f... 


2.2 ”使 用 归档 文件 安装 


使 用 Docker 初试 Presto 后 ， 可 以 选择 在 本 地 的 工作 站 或 服务 器 上 安装 Presto。 





Presto 可 以 运行 在 大 多 数 现代 Linux 发 行 版 和 macOS 上 ， 它 依赖 Java 虚拟 机 (JVM) 和 
Python 环境 。 





2.2.1 JVM 


Presto 使 用 Java 编写 并 要 求 你 的 系统 内 安装 有 JVM。Presto 需要 Java 的 长 期 支持 版 本 
Java 11， 不 支持 更 旧版 本 的 Java， 而 在 更 新 版 本 的 Java 环境 下 它 也 许可 以 正常 工作 ,但 
并 未 仔细 测试 。 


下 列 命令 确认 java 命令 已 经 安装 并 且 在 PATH 环境 变量 中 : 








$ java --version 
openjdk 11.0.4 2019-07-16 
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OpenJDK Runtime Environment (build 11.0.4+11) 
OpenJDK 64-Bit Server VM (build 11.0.4+11, mixed mode, sharing) 


车 没有 安装 Java 11，Presto 就 会 启动 失败 。 


2.2.2 Python 
Presto 的 启动 器 脚本 依赖 Python 2.6 或 更 高 版 本 。 


下 列 命令 确认 python 命令 已 经 安装 并 且 在 PATH 环境 变量 中 : 








$ python --version 
Python 2.7.15+ 


2.2.3 安装 


Presto 的 二 进 制 包 使 用 Maven 中 心 仓 库 分 发 。 服 务 端 应 用 程序 可 以 通过 一 个 tar.gz 归档 文 
件 获得 。 


你 可 以 通过 以 下 链接 多 得 可 用 的 版 本 列表 ， 
https:/repo.maven.apache.org/maven2/io/prestosql/presto-SerVeT 


先 找 到 最 大 的 版 本 号 代表 最 新 发 布 的 版 本 )， 进 入 对 应 的 文件 夹 并 下 载 tar.gz 文件 。 也 可 
以 使 用 命令 行 工 具 下 载 归 档 文件 。 例 如 ， 使 用 wget 命令 下 载 330 版 本 : 





$ wget https://repo.maven.apache.org/maven2/\ 
io/prestosql/presto-server/330/presto-server-330.tar.gz 


然后 提取 归档 文件 : 


$ tar xvzf presto-server-*.tar.gz 





提取 过 程 会 创建 一 个 顶级 目录 ， 其 名称 和 归档 文件 名 相同 ， 但 不 带 扩展 名 。 这 一 目录 被 称 
为 安装 目录 。 


安装 目录 包含 下 列子 目录 。 




















lib 
包含 组 成 Presto 服务 端 及 其 全 部 依赖 关系 的 Java 归档 文件 (JAR )。 

plugins 
包含 Presto 插件 及 其 依赖 关系 ， 各 个 插件 分 开 存 放 在 不 同 的 目录 下 。Presto 默认 已 经 包 
含 许多 插件 ， 你 也 可 以 添加 第 三 方 插 件 。Presto 允许 多 种 可 插 拔 的 组 件 ， 如 连接 器 、 国 
数 和 安全 访问 控制 等 与 其 集成 。 
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bin 
包含 Presto 的 局 动 脚本 。 这 些 脚 本 用 于 启动、 停止、 重启 、 终 结 Presto 进程 ， 以 及 获得 
运行 该 进程 的 状态 。 你 可 以 在 5.6 节 中 了 解 更 多 有 关 这 些 脚 本 的 使 用 。 





etc 
配置 文件 所 在 的 目录 。 此 目录 由 用 户 创建 并 提供 Presto 必需 的 配置 文件 。 你 可 以 在 5.1 
节 中 找到 更 多 有 关 配 置 选项 的 信息 。 





Var 
存放 日 志 信 息 的 数据 目录 。Presto 服务 端 第 一 次 启动 时 会 创建 此 目录 ， 它 默认 情况 下 位 
于 安装 目录 下。 我们 推荐 将 其 配置 为 安装 目录 之 外 的 位 置 ， 以 便 在 升级 过 程 中 保留 这 些 
数据 。 








2.2.4 配置 
启动 Presto 前 ， 需 要 先 提供 一 些 配置 文件 : 
。 Presto 日 志 配 置 


。 Presto 节点 配置 
。 JVM 配置 





默认 情况 下 ， 配 置 文件 应 存放 在 安装 目录 下 的 etc 目录 里 。 





除了 JVM 配置 之 外 ， 其 他 配置 文件 的 格式 遵循 Java properties 标准 。 简 单 来 说 ， 在 Java 
properties 中 ， 每 个 配置 参数 都 以 key=value 字符 串 对 的 格式 存储 为 一 行 。 


你 需要 在 2.2.3 节 创 建 的 Presto 安装 目录 中 创建 这 些 基 本 的 配置 文件 ， 或 在 本 书 的 Git 仓库 
(参见 1.4.6 节 ) 中 找到 可 以 直接 使 用 的 配置 文件 。 下 面 是 三 个 配置 文件 的 内 容 。 























etc/config.properties: 


coordinator=true 
node-scheduler.include-coordinator=true 
http-server.http.port=8080 
query.max-memory=5GB 
query.max-memory-per-node=1GB 
query.max-total-memory-per-node=2GB 
discovery-server .enabled=true 
discovery.uri=http://localhost:8080 


etc/node.properties: 


node.environment=demo 


etc/jvm.config: 


-SerVer 
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-Xmx4G 

-XX:+UseG1GC 

-XX:GlHeapRegionSize=32M 
-XX:+UseGCOverheadLimit 
-XX:+ExplicitGCInvokesConcurrent 
-XX:+HeapDumpOnOutOfMemoryError 
-XX:+ExitOnOutOfMemoryError 
-Djdk.nio.maxCachedBufferSize=2000000 
-Djdk.attach.allowAttachSelf=true 


上 述 的 配置 文件 就 绪 后 ，Presto 就 可 以 启动 了 。 可 以 在 第 5 章 中 找到 这 些 配 置 文件 更 详细 
的 描述 。 


2.3 添加 数据 源 


虽然 已 经 安装 好 了 Presto， 但 还 不 能 就 这 样 启 动 它 。 毕 竟 ， 你 想 要 在 Presto 里 查询 一 些 外 
部 数据 ， 这 需要 你 将 一 个 数据 产 配 置 为 catalog。 


Presto 的 catalog 定义 了 用 户 可 用 的 数据 源 。 数 据 访 问 是 由 Presto 连接 器 执行 的 ， 该 连接 器 由 
connector .name 属性 在 catalog 中 配置 。catalog 将 数据 源 中 的 所 有 schema 和 表 暴 露 给 Presto。 





例如 ，Hive 连接 器 将 每 个 Hive 数据 库 映 射 到 一 个 shema。 如 果 想 要 使 用 Hive 连接 器 将 一 
个 名 为 web 的 Hive 数据 库 (其 中 包含 一 张 clicks 表 ) 暴露 为 名 为 sitehive 的 catalog， 那 
么 我 们 需要 在 catalog 文件 中 指定 使 用 Hive 连接 器 。 你 可 以 使 用 完全 限定 名 语法 catalog. 
schema.table 来 访问 catalog， 本 例 中 就 是 sitehive.web.clicks。 


可 以 通过 在 etc/catalog 目录 下 创建 一 个 catalog 属性 文件 来 注册 catalog。 该 文件 的 名 称 就 
是 catalog 在 系统 中 的 名 称 。 比 如 ， 你 创建 了 etc/catalog/cdh-hadoop.properties、etc/catalog/ 
Sales.properties、etc/catalog/web-traffic.properties 和 etc/catalog/mysql-dev.properties 等 catalog 
属性 文件 ， 则 这 些 catalog 在 Presto 里 就 是 cdh-hadoop、sales、web-traffic 和 mysql-dev。 








可 以 使 用 TPC-H 连接 器 探索 Presto。TPC-H 连接 器 内 置 于 Presto 中 并 提供 了 一 系列 的 
schema 用 于 支持 TPC-H。 你 可 以 在 6.3 节 中 了 解 更 多 信息 。 














要 配置 TPC-H 连接 器 ， 需 要 创建 一 个 catalog 属性 文件 etc/catalog/tpch.properties， 并 将 连 
接 器 配置 为 tpch: 


connector .name=tpch 








每 个 catalog 文件 都 必须 有 connector .name 属性 。 额 外 的 属性 由 对 应 Presto 连接 器 的 实现 决 
定 。 这 些 内 容 在 Presto 的 文档 中 都 有 介绍 ， 你 也 可 以 在 第 6 章 和 第 7 章 中 了 解 更 多 信息 。 


本 书 仓库 包含 了 一 系列 catalog 文件 ， 来 帮助 你 学 习 Presto。 




















2.4 运行 Presto 
现在 你 终于 真正 准备 好 启动 Presto 了 。 安 装 目 录 下 包含 了 启动 脚本 ,你 可 以 用 它们 来 启动 
Presto: 


$ bin/Launcher run 


run 命令 将 Presto 启动 为 前 台 进 程 ，Presto 的 日 志和 其 他 输出 将 写 入 标准 输出 流 (stdout ) 
和 标准 错误 流 (stderr)。 成 功 启动 后 会 有 一 条 日 志 ， 你 一 段 时 间 后 应 该 可 以 看 到 以 下 输出 : 





INFO main io.prestosql.server.PrestoServer ======== SERVER STARTED 





在 前 台 运行 Presto 有 助 于 测试 和 快速 检验 进程 能 否 正确 启动 ， 以 及 它 是 否 使 用 了 期 望 的 配 
置 。 可 以 使 用 Ctrl-C 组 合 键 结束 服务 器 进程 。 


5.6 节 和 5$.3 节 分 别 介绍 了 有 关 启 动 器 脚本 和 日 志 的 更 多 信息 。 


2.5 ”小结 
本 章 的 内 容 让 你 了 解 到 安装 和 启动 Presto 非常 容易 。 现 在 可 以 启动 它 并 将 其 投入 使 用 了 。 




















在 第 3 章 中 ， 你 将 了 解 如 何 与 Presto 交互 并 用 其 查询 配置 好 的 数据 源 。 你 也 可 以 直接 跳 到 
第 6 章 和 第 7 章 来 学 习 多 种 其 他 的 连接 器 ， 并 为 你 自己 添加 更 多 的 catalog。 
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第 3 章 
使 用 Presto 





质 你 ! 在 前 面 的 章节 里 ， 我 们 向 你 介绍 了 Presto， 你 学 习 了 如 何 安装 、 配 置 和 启动 它 ， 
下 可 以 开始 使 用 它 了 。 

















3.1 Presto CLI 


Presto CLI 提供 了 一 个 基于 终端 的 交互 式 shell。 你 可 以 通过 它 运行 查询 并 与 Presto 服务 端 
交互 来 查看 元 数据 。 


3.1.1 使 用 入 门 


正如 Presto 服务 端 一 样 ，Presto CLI 也 通过 Maven 中 央 仓 库 分 发 二 进 制 包 。 这 个 CLI 应 用 
程序 以 可 执行 JAR 包 的 形式 提供 ， 你 可 以 像 普通 UNIX 可 执行 程序 一 样 使 用 它 。 











你 可 以 从 如 下 链接 查看 可 用 版 本 的 列表 : https://repo.maven.apache.org/maven2/io/prestosql/ 


presto-cli。 





找到 与 你 使 用 的 Presto 服务 端 版 本 相 一 致 的 CLI 版 本 ， 从 版 本 目录 中 下 载 对 应 的 
*-executable.jar 文件 ， 然 后 将 其 重 命名 为 presto。 下 列 命令 展示 了 如 何 使 用 wget 完成 上 述 
步骤 并 安装 330 版 本 : 














$ wget -0 presto \ 
https://repo.maven.apache.org/maven2/\ 
io/prestosql/presto-cli/330/presto-cli-330-executable.jar 
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你 需要 确保 文件 具有 可 执行 权限 。 为 了 方便 使 用 ， 将 其 放置 在 PATH 中 。 例 如 ， 你 可 以 将 其 
复制 到 ~bin， 并 将 此 目录 添加 到 PATH 中 。 








$ chmod +x presto 
$ mv presto &#x7e; /bin 
$ export PATH=~/bin/ :SPATH 








下 面 可 以 运行 Presto CLI 并 确认 其 版 本 : 


Fr 











$ presto --version 
Presto CLI 330 


可 以 使 用 hetLp 选项 查看 所 有 可 用 的 选项 和 命令 的 文档 。 
$ presto --help 


开始 使 用 CLI 之 前 ， 你 需要 决定 与 哪个 Presto 服务 端 交互 。 默 认 情 况 下 ，CLI 连接 到 运行 
Wo 
发 目的 ) ， 或 者 你 通过 SSH 连接 到 了 服务 器 ， 又 或 者 你 使 用 exec 命令 连接 到 安装 了 CLI 的 
Docker 容器 中 ， 则 可 以 直接 执行 以 下 命令 : 























$ presto 
presto> 


如 有 果 Presto 服务 端 运行 在 另 一 台 服 务 器 上 ， 则 需要 手动 指定 URL: 





$ presto --server https://presto.example.com:8080 
presto> 


presto> 命令 行 提示 符 表 明 你 在 使 用 交互 式 控制 台 访 问 Presto 服务 端 。 键 入 help 命令 来 获 
取 可 用 命令 的 列表 : 





presto> help 

Supported commands: 

QUIT 

EXPLAIN [ ( option [, ...] ) ] <query> 
options: FORMAT { TEXT | GRAPHVIZ | JSON } 

TYPE { LOGICAL | DISTRIBUTED | VALIDATE | I0 } 

DESCRIBE <table> 

SHOW COLUMNS FROM <table> 

SHOW FUNCTIONS 

SHOW CATALOGS [LIKE <pattern>] 

SHOW SCHEMAS [FROM <catalog>] [LIKE <pattern>] 

SHOW TABLES [FROM <schema>] [LIKE <pattern>] 

USE [<catalog>.]<schema> 


CLI 中 的 大 多 数 命 令 ， 尤 其 是 所 有 SQL 语句 ， 需 要 以 分 号 结尾 。 在 Presto 上 使 用 SQL 的 
更 多 信息 ， 参 见 3.6 节 。 现 在 ， 你 只 需 完成 一 些 简单 的 事情 来 入 门 即 可 。 
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首先 ， 你 可 以 检查 哪些 数据 源 被 配置 为 catalog。 你 至 少 会 看 到 内 部 元 数据 catalog 一 一 
system。 在 我 们 的 案例 中 ， 你 还 会 看 到 tpch catalog: 





presto> SHOW CATALOGS; 
Catalog 

system 

tpch 

(2 rows) 


Query 20191212_185850_00001_etmtk, FINISHED, 1 node 
Splits: 19 total, 19 done (100.00%) 
0:01 [0 rows, OB] [6 rows/s, 0B/s] 























你 可 以 很 容易 地 显示 可 用 schema 及 其 中 的 表 。 每 次 执行 Presto 查询 时 ， 查 询 处 理 过 程 的 
统计 信息 都 会 和 查询 结果 一 起 返回 。 你 可 以 在 前 面 的 代码 中 看 到 统计 信息 ， 但 以 下 代码 会 
省 略 它 : 


























presto> SHOW SCHEMAS FROM tpch ; 
Schema 

information_schema 

sf1 

sf100 

sf1000 

sf10000 

sf100000 

sf300 

sf3000 

sf30000 

tiny 

(10 rows) 


presto> SHOW TABLES FROM tpch.sf1; 
Table 
Customer 
lineitem 
nation 
orders 
part 
partsupp 
region 
supplier 
(8 rows) 





现在 你 准备 好 查询 实际 的 数据 了 : 


presto> SELECT count(name) FROM tpch.sf1.nation; 
_CoL0 





此 外 还 可 以 选择 一 个 schema 作为 当前 schema， 之 后 就 可 以 从 查询 中 省 略 限定 符 了 : 





presto> USE tpch .sf1; 
USE 
presto:sf1> SELECT count(name) FROM nation: 


如 果 你 知道 将 在 某 一 schema 下 工作 ， 则 可 以 在 启动 CLI 时 指定 它 : 





$ presto --catalog tpch --schema sf1 


现在 ， 你 能 够 利用 你 所 有 的 SQL 知识 和 Presto 的 强大 能 力 查询 已 配置 的 数据 源 了 。 





要 退出 CLI， 只 需 键 入 quit 或 exit 命令 ， 或 按 Ctrl-D 组 合 键 。 
3.1.2 分 页 

















默认 情况 下 ， 查 询 的 结果 将 使 用 精心 配置 好 的 Less 程序 分 页 。 你 可 以 通过 将 环境 变量 
PRESTO_PAGER 设置 为 男 一 个 程序 的 名 称 (如 more) 来 覆盖 这 一 行为 ， 或 将 其 置 为 空 来 彻底 
禁用 分 页 。 





3.1.3 ”命令 历史 


Presto CLI 会 保留 之 前 运行 过 的 命令 的 历史 。 你 可 以 使 用 上 下 筑 头 键 来 滚动 浏览 这 些 历 史 ， 
也 可 以 使 用 Ctrl-S 组 合 键 和 Ctrl-R 组 合 键 来 查询 历史 。 要 再 次 执行 一 条 查询 ， 只 需 按 回 车 
键 即 可 。 


默认 情况 下 ，Presto 的 命令 历史 保存 在 ~/.presto_history 文件 中 ， 你 可 以 使 用 PRESTO_HISTORY_ 
FILE 环境 变量 来 修改 默认 值 。 


3.1.4 额外 诊断 
Presto CLI 提供 了 - -debug 选项 来 打开 运行 查询 时 的 调试 信息 输出 。 














$ presto --debug 

presto:sf1> SELECT count(*) FROM foo; 

Query 20181103_201856_00022_te3wy failed: 
Line 1:22: Table tpch.sf1.foo does not exist 


io.prestosql.sql.analyzer .SemanticException: 
Line 1:22: Table tpch.sf1.foo does not exist 


at java.Lang.Thread.run(Thread.java:748) 


3.1.5 ”执行 查询 
你 可 以 直接 使 用 presto 命令 执行 查询 ， 并 在 查询 执行 完毕 时 退出 Presto CLI。 这 在 你 需要 
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编写 执行 多 条 查询 的 脚本 ， 或 使 用 其 他 系统 实现 更 复 灯 的 自动 化 工作 流 时 很 有 用 。 以 这 种 
方式 执行 命令 时 ， 它 会 返回 来 自 Presto 的 查询 结果 。 


要 使 用 Presto CLI 直接 执行 查询 ， 你 需要 使 用 - -execute 选项 。 注 意 ， 在 查询 语句 中 你 需 
要 使 用 完全 限定 符 来 引用 一 个 表 (例如 catalog.schema.table)。 











$ presto --execute "SELECT nationkey, name, regionkey FROM tpch.sf1.nation LIMIT 5' 
"0","ALGERIA","O" 

"1","ARGENTINA","1" 

2" "BRAZIL™";"1" 

"3","CANADA","1" 

“4" "EGYPT.; "4" 


你 也 可 以 使 用 --catalog 和 --schema 选项 来 避免 使 用 完全 限定 符 : 


$ presto --catalog tpch --schema sf1 \ 
--execute 'select nationkey, name, regionkey from nation limit 5' 














借助 分 号 分 隔 不 同 的 查询 语句 ， 你 可 以 一 次 执行 多 个 查询 。 
Presto CLI 也 支持 读 入 并 执行 文件 中 的 命令 和 SQL 查询 ， 如 nations.sql 文件 包含 以 下 内 容 : 


USE tpch.sf1; 
SELECT name FROM nation; 




















你 可 以 在 CLI 中 使 用 -f 选项 执行 该 文件 中 的 命令 。Presto CLI 会 将 结果 输出 到 命令 行 中 ， 
然后 退出 : 

$ presto -f nations.sql 

USE 

"ALGERIA" 

"ARGENTINA" 


"BRAZIL" 
"CANADA" 


3.1.6 输出 格式 


Presto CLI 提供 了 --output-format 选项 来 控制 如 何在 非 交 互 模式 下 显示 输出 ， 可 用 的 选项 
有 ALIGNED、VERTICAL、CSV、TSV、CSV_HEADER、TSV_HEADER 和 NULL， 默 认 值 是 CSv。 





3.1.7 忽略 错误 
Presto CLI 提供 了 --ignore-error 选项 ， 使 用 它 你 可 以 忽略 执行 文件 中 的 查询 时 遇 到 的 任 
何 错误 。 默 认 行 为 是 在 遇 到 第 一 个 错误 时 终止 执行 脚本 。 


下 














3.2 ” Presto JDBC 了 驱动 


任何 Java 应 用 程序 都 可 以 通过 Java 数据 库 连 接 (JDBC) 驱动 连接 到 Presto。JDBC 是 一 
套 标 准 的 数据 库 访 问 API， 它 提供 了 在 关系 数据 库 中 查询 、 插 入 、 删 除 和 更 新 数据 等 的 必 
要 方法 。 许 多 运行 在 JVM 上 的 客户 端 应 用 程序 或 服务 端 应 用 程序 使 用 JDBC 来 访问 底层 
的 数据 库 ， 以 实现 数据 库 管理 、 报 表 和 其 他 一 些 特性 。 通 过 JDBC 驱动 ， 所 有 这 些 应 用 程 
序 都 可 以 使 用 Presto。 

















Presto 的 JDBC 驱动 允许 你 连接 到 Presto 并 使 用 SQL 语句 与 Presto 交互 。 





如 果 你 熟悉 JDBC 驱动 的 不 同 实现 ， 就 知道 Presto 的 JDBC 驱动 是 Type 4 
动 ， 这 仅仅 意味 着 它 直 接 与 Presto 原生 接口 通信 。 


1 














JDBC 驱动 可 以 让 你 使 用 许多 强大 的 SQL 客户 端 和 数据 库 管 理工 具 ， 比 如 开源 工具 
DBeaver 或 SQuirreL SQL 客户 端 等 。 基 于 JDBC 的 报告 生成 、 仪 表盘 和 分 析 工 具 也 可 以 与 
Presto 一 起 使 用 。 





用 这 些 工 具 连 接 Presto 的 步骤 都 很 相似 。 


. 下 载 JDBC 驱动 。 

. 将 JDBC 驱动 放置 在 应 用 classpath 的 覆盖 范围 之 内 。 
配置 JDBC 驱动 。 

配置 Presto 连接 。 

连接 Presto 并 开始 使 用 。 


例如 ， 开 源 数据 库 管 理工 具 DBeaver 简化 了 上 述 过程 。 安 装 和 启动 DBeaver 之 后 ， 遵 循 以 
下 步骤 。 


1. 从 File (文件 ) 菜单 中 选择 New (新 建 )。 

2. 在 DBeaver 这 部 分 中 ， 选 择 Database Connection (数据 库 连接 )， 然 后 单 击 Next (下 一 步 )。 

3. 在 输入 框 中 键入 prestosqL， 选 择 对 应 图 标 ， 然 后 单 击 Next (下 一 步 )。 

4. 配置 到 Presto 的 连接 ， 然 后 单 击 Finish (完成 )。 注 意 ，username (用 户 名 ) 字段 是 必 
填 项 。 在 Presto 的 默认 安装 环境 中 你 可 以 提供 一 个 随机 的 用 户 名 而 无 须 认 证 。 




















ww mb 












































现在 你 可 以 在 左边 的 数据 库 导 航 器 (Database Navigator) 中 看 到 这 个 连接 ， 并 可 以 检视 
schema 和 表 ， 图 3-1 显示 了 一 个 例子 。 你 也 可 以 启动 SQL 编辑 器 ， 开 始 编写 查询 并 用 
Presto 工作 。 
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上 围 orders 一 
上 围 part 
PF 图 partsupp 一 二 
上 国 region QT SE 
Table columns PST | en CA ET i 





图 3-1:， DBeaver 用 户 界面 (显示 tpch.sf1.customer 表 的 列 信息 ) 


SQuirreL SQL 客户 端 和 许多 其 他 工具 具有 相似 的 过 程 。 有 些 步骤 需要 更 多 手动 操作 ， 如 下 
载 JDBC 驱动 、 配 置 数据 库 驱 动 和 连接 等 。 下 面 来 看 一 下 相关 细节 。 








3.2.1 下 载 和 注册 驱动 

Presto 的 JDBC 驱动 使 用 Maven 中 央 仓 库 分 发 ， 该 驱动 程序 被 打包 成 JAR 文件 。 

你 可 以 从 如 下 链接 获得 可 用 版 本 的 列表 : https:/repo.maven.apache.org/maven2/io/prestosql/ 
presto-jdbc 。 


找到 代表 最 新 发 布 版 本 的 最 大 的 数字 ， 进 入 对 应 目录 并 下 载 jar 文件。 你 也 可 以 在 命令 行 
里 下 载 它 ， 例 如 ， 使 用 wget 命令 下 载 版 本 330: 


$ wget https://repo.maven.apache.org/maven2/\ 
io/prestosql/presto-jdbc/330/presto-jdbc-330.jar 
要 在 应 用 程序 中 使 用 Presto 的 JDBC 驱动 ， 你 先 要 将 它 加 入 Java 应 用 程序 的 classpath 中 。 
不 同 的 应 用 程序 有 不 同 的 classpath， 但 像 SQuirreL SQL 客户 端 一 样 ， 它 们 通常 使 用 一 个 名 
为 lib 的 目录 。 有 些 应 用 程序 提供 一 个 对 话 框 来 将 库 文件 添 加 到 classpath， 也 可 以 手动 将 
文件 复制 到 指定 位 置 。 


加 载 有 驱动 通常 需要 重启 应 用 程序 。 


你 现在 可 以 注册 驱动 了 。 在 SquirreL SQL 客户 端 中 ， 你 可 以 在 用 户 界面 左边 的 驱动 
(Drivers) 标签 页 单 击 + 按钮 来 创建 一 个 新 驱动 。 
































在 配置 驱动 时 ， 你 需要 确保 配置 了 以 下 参数 。 





类 名 称 : io.prestosqL.jdbc.PrestoDriver 
。 JDBC URL 示例 : jdbc:presto://host:port/catalog/schema 
。 名 称 : Presto 


要 让 驱动 工作 ， 只 有 类 名 称 、JDBC URL 和 在 classpath 中 的 JAR 包 是 必 填 项 。 其 他 参数 是 
可 选 的 ， 并且 因应 用 程序 不 同 而 有 所 不 同 。 





3.2.2 创建 到 Presto 的 连接 
注册 好 驱动 ， 且 启动 并 运行 Presto 之 后 ， 你 现在 可 以 将 其 连接 到 应 用 程序 了 。 














在 SQuirreL SQL 客户 端 中 ， 连 接 配 置 叫 作 别名 (alias)。 你 可 以 在 用 户 界 面 左边 的 别名 
(Alias) 标签 页 上 单 击 + 按钮 ， 并 使 用 以 下 参数 来 新 建 别名 。 


名 称 
描述 Presto 连接 的 名 称 。 如 果 你 要 连接 到 多 个 Presto 实例 ， 或 不 同 的 schema 和 数据 库 ， 
好 的 名 称 就 更 重要 了 。 


驱动 
选择 你 之 前 创建 的 Presto 驱动 。 











URL 

连接 到 Presto 的 JDBC URL 采用 模板 jdbc:presto://host:port/catalog/schema， 其 中 catalog 
和 schema 的 值 是 可 选 的 。 要 连接 到 你 之 前 在 本 地 安装 并 运行 的 Presto 服务 (运行 在 
http://localhost:8080 上 )， 可 以 使 用 jdbc:presto://localhost:8080 作为 JDBC URL。host 参 
数 指定 了 Presto 协调 器 运行 的 主机 地 址 ， 它 也 是 你 通过 Presto CLI 进行 连接 时 使 用 的 主 
机 名 。port 参数 指定 的 是 对 应 主机 上 Presto 的 HTTP 端口 。 可 选 的 catalog 和 schema 
参数 用 于 在 指定 catalog 和 schema 的 情况 下 建立 连接 。 如 果 你 指定 了 catalog 和 schema， 
查询 语句 中 的 表 名 称 就 无 须 使 用 完全 限定 符 。 


用 户 名 
即使 Presto 上 没有 配置 权限 认证 ， 用 户 名 也 是 必 填 项 ， 这 使 得 Presto 可 以 报告 查询 的 发 
起 人 。 




















密码 
密码 与 用 户 相 关联 并 用 于 认证 。Presto 的 默认 安装 没有 配置 权限 认证 ， 因 此 无 须 密码 。 














Presto 的 JDBC 驱动 可 以 接收 更 多 参数 作为 属性 ， 这 样 应 用 程序 便 可 以 决定 提供 哪些 值 。 作 
为 连接 配置 的 一 部 分 ，DBeaver 和 SQuirreL SQL 客户 端 都 包含 一 个 用 户 界面 来 指定 属性 。 
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S9L 
是 否 开 局 连 接 的 SSL 加 密 ， 可 人选 值 : true 或 者 faLse。 


SSLTrustStorepPath 
SSL 信任 库 (truststore) 的 路 径 。 


SSLTrustStorePassword 


SSL 信任 库 的 密码 。 


user 和 password 


等 价 于 用 户 名 和 密码 参数 。 


applicationNameprefix 


该 属性 用 于 在 Presto 处 标识 应 用 程序 ， 并 设 定 Presto 查询 的 源 名 称 。 源 名 称 会 显示 在 
Presto Web UI 中 ， 以 便 管理 员 查 看 查询 是 从 哪里 发 起 的 。 此 外 ， 该 属性 可 以 与 资源 组 
配合 使 用 。 在 资源 组 中 ， 你 可 以 使 用 AppLicationName 属性 来 决定 Presto 如 何 分 配 资 











源 。12.8 市 对 此 进行 了 讨论 。 


Presto 的 文档 提供 了 Presto JDBC 驱动 可 用 参数 的 完整 列表 ， 参 见 1.4.2 节 。 


一 旦 你 配置 好 了 连接 ， 就 可 以 使 用 它 连接 到 Presto， 来 查询 Presto 


自身 以 及 所 有 已 配置 的 





schema 和 数据 库 。 查 询 执 行 、 报 告 生成 以 及 其 他 功能 可 用 的 特定 特性 ， 根 据 连 接 到 Presto 
的 应 用 程序 不 同 ， 也 会 有 所 不 同 。 图 3-2 展示 了 在 SQuirreL SQL 客户 端 中 成 功 连 接 到 








Presto 的 一 个 连接 ， 以 及 一 些 查 询 示 例 和 结果 集 。 




















‘Objects 


SELECT * FROM tpch.tiny.region; 4 加 回 Limit Rows: 


【ER SQuirreL SQL Client Version 4.00 

| connect to: PrestoLocalhost [| 写 [一]Active Session: 1- PrestoLocalhost ... 名 [ 画 [girl 

bp EE -一 [3 srPS 

ZI Caiog: | None [| 本] [Wli lw BISISISIEIIIXISIAl [STS 


100 





|SELECT * FROM ( VALUES ('Lukas') , ('Nikolas'), ('Tobias') ) AS t (son) 
人 Son LIKE ‘ss'; 
SELECT * FROM tpch.tiny. regionj| 


| Drivers 





| .~ 


本 . Selected Rows: 1, Cols: 0 
上 Position: Row: 1, Col: EM 


SELECT * FROM ( SELECT* FROM ( SELECT * FROM ( SELECT * FROMT 


Meta data Info 。 Overview / Charts Rotatedtable Results as text 


加 | &| 台 | 加 | 








regionkey name comment 



































1 AMERICA hs use ironic, even requests. 5 
2 ASIA ges. thinly even pinto beans ca 
/PrestoLocalhost Current schema: <None> 多 加 4321127 














Drs null 
ErrorCode: 46 

















可 下 | 300f265 MB 


0 车 | 站 14359pm PST 








3-2: SQuirreL SQL 客户 端 用 户 界面 显示 若干 查询 以 及 结果 集 





3.3 ”Presto 与 ODBC 


与 使 用 JDBC 驱动 (参见 3.2 节 ) 连接 到 Presto 相似 ， 开 放 数 据 库 连接 (ODBC) 允许 任 
何 支持 ODBC 的 应 用 程序 连接 到 Presto， 并 为 典型 的 基于 C 的 应 用 程序 提供 了 一 套 API。 


目前 Presto 没有 开源 的 ODBC 驱动 可 用 ， 但 你 可 以 从 Starburst 和 Simba 购买 商业 授权 的 
驱动 。 


有 了 ODBC 驱动 支持 ， 就 可 以 使 用 数据 库 管理 、 商 业 智 能 以 及 报告 与 分 析 在 内 的 诸多 
热门 应 用 程序 ， 如 Microsoft Power BI、Tableau、SAS、Quest Toad 等 。ODBC 也 支持 


Microsoft Excel。 


3.4 客户 端 库 
除了 由 Presto 团队 直接 维护 的 Presto CLI 和 JDBC 驱动 ，Presto 社区 的 很 多 成 员 也 为 Presto 
创建 了 很 多 客户 端 库 。 




















你 可 以 找到 为 Python、C、Go、Nodejs、R、Ruby 等 语言 开发 的 库 。Presto 网 站 (参见 
1.4.1 节 ) 维护 了 一 个 客户 端 列 表 。 


这 些 库 使 你 可 以 将 Presto 与 这 些 语 言 生态 系统 中 的 应 用 程序 集成 起 来 ， 包 括 你 自己 编写 的 
应 用 程序 。 








3.5 Presto Web UI 


Presto 服务 端 提 供 了 一 个 Web 界面 ， 通 常 叫 作 Presto Web Ul。 如 图 3-3 所 示 ，Presto Web 
UI 提供 了 Presto 服务 端 及 其 查询 处 理 的 详细 信息 。 















































Presto Web UI 可 以 借助 与 Presto 服务 端 相 同 的 HTTP 端口 号 ， 使 用 相同 的 地 址 访问 。 默 认 
端口 是 8080， 则 一 个 可 能 的 访问 地 址 是 http://presto.example.com:8080。 因 此 ， 在 本 地 的 安 
装 环境 下 ， 可 以 在 http://localhost:8080 处 访问 Web UI。 











主 仪表 盘 显示 了 Presto 利用 率 的 细节 和 查询 列表 。 你 还 可 以 通过 UI 获得 更 进一步 的 信息 
这 些 信息 对 操作 Presto 和 管理 运行 中 的 查询 具有 极 大 的 价值 。 


使 用 Web UI 有 助 于 监控 Presto 和 性 能 调 优 ，12.1 节 有 详细 介绍 。 新 手 主要 可 以 用 它 来 确 
认 服 务 端 是 否 正常 启动 和 运行 ， 并 正在 处 理 查 询 。 
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0 


QUEUED QUERIES 


0 


0 


QUERY DETAILS 





光 CLUSTER OVERVIEW 312 PRESTO 2.54m 


RUNNING QUERIES ACTIVE WORKERS ROWS/SEC 


BLOCKED QUERIES RESERVED MEMORY (B) WORKER PARALLELISM 





| 0 . 0 0 
RUNNABLE DRIVERS BYTES/SEC 


0.00 0 
0 0.00 


FINISHED 








图 3-3: 显示 有 关 集 群 总 体 信息 的 Presto Web U 


3.6 ”使 用 Presto 执 行 SQL 


Presto 是 一 个 兼容 ANSI SQL 的 查询 引擎 ， 可 以 让 你 使 用 相同 的 SQL 语句 、 函 数 和 运算 符 
来 查询 和 操作 所 有 可 以 连接 到 的 数据 源 。 


Presto 致力 于 成 为 一 个 与 现 有 SQL 标准 兼容 的 系统 ， 其 主要 设计 原则 之 一 是 既 不 发 明 一 套 
新 的 类 SQL 查询 语言 ， 也 不 偏离 SQL 标准 太 远 。 它 所 有 的 新 功能 和 语言 特性 都 试图 与 标 


准 兼容 。 




















只 有 在 标准 没有 定义 某 一 等 价 的 功能 时 ，Presto 才 会 考虑 扩展 SQL 特性 。 即 使 如 此 ， 
Presto 在 设计 新 的 语言 特性 时 也 会 非常 小 心 。 标 准 SQL 和 其 他 SQL 实现 里 的 相似 特性 会 





被 性 虑 在 内 ， 





Presto 没有 将 
的 文档 ， 并 目 











以 判断 其 是 否 有 可 能 在 未 来 标准 化 。 


在 少数 SQL 标准 没有 定义 等 价 功能 的 情况 下 ，Presto 会 扩展 标准 ， 一 个 突出 
的 例子 是 lambda 表达 式 ， 参 见 9.20 市 。 











自己 绑 定 在 某 一 个 特定 的 SQL 标准 版 本 上 ， 相 反 ， 它 将 SQL 标准 看 作 活 动 
非常 重视 最 新 版 本 的 标准 。 另 外 ，Presto 还 未 完全 实现 SQL 标准 所 定义 的 所 














有 必要 特性 。 




















一 条 规定 是 ， 如 果 现 存 的 某 个 功能 被 发 现 与 标准 不 兼容 ， 就 会 被 弃 用 并 很 快 





替换 为 兼容 标准 的 实现 。 
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如 前 所 述 ， 你 可 以 使 用 Presto CLI 以 及 数据 库 管 理工 具 (与 JDBC 或 ODBC 连接 ) 来 查 
询 Presto 。 


3.6.1 概念 
Presto 使 你 可 以 使 用 SQL 访问 外 部 数据 源 ， 如 关系 数据 库 、 键 值 存储 和 对 象 存储 等 。 理 解 
以 下 Presto 概念 非常 重要 。 





连接 器 
使 Presto 适 配 一 个 数据 源 。 每 一 个 catalog 对 应 于 一 个 特定 的 连接 器 


catalog 
定义 连接 到 一 个 数据 源 的 细节 。 它 包含 了 schema 并 配置 了 一 个 连接 器 来 使 用 。 





schema 


组 织 表 的 一 种 方式 。catalog 和 schema 一 起 定义 了 一 个 集合 的 表 ， 这 些 表 可 以 查询 。 
表 
表 是 无 序 的 行 的 集合 。 这 些 行内 容 被 组 织 成 带 有 数据 类 型 的 有 名 称 的 列 。 


3.6.2 入门 案例 


一 节 给 出 了 支持 的 SQL 和 Presto 语句 的 一 个 简短 概览 ， 更 多 信息 参见 第 8 章 和 第 9 章 。 





system catalog 包含 了 Presto 的 元 数据 。 你 可 以 使 用 特定 的 语句 来 查询 元 数据 ， 比 如 获得 可 
用 的 catalog、schema、 信 息 schema、 表 等 。 


使 用 下 列 语句 来 列 出 所 有 的 catalog: 


SHOW CATALOGS; 
Catalog 
system 
tpch 
(2 rows) 


使 用 下 列 语句 显示 tpch catalog 下 所 有 的 schema: 


SHOW SCHEMAS FROM tpch; 
Schema 

information_schema 

sf1 

sf100 

sf1000 

sf10000 
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sf100000 
sf300 
sf3000 
sf30000 
tiny 

(10 rows) 


使 用 下 列 语句 列 出 sf1l catalog 下 所 有 的 表 : 


SHOW TABLES FROM tpch.sf1; 
Table 
Customer 
lineitem 
nation 
orders 

part 
partsupp 
region 
supplier 
(8 rows) 


使 用 下 列 语句 了 解 region 表 的 数据 类 型 : 


DESCRIBE tpch.sf1.region; 


Column | Type | Extra | Comment 
----------- +--------------+-------+--------- 
regionkey | bigint | 
name | varchar(25) | 
comment | varchar(152) | | 
(3 rows) 


除 此 之 外 ， 还 有 一 些 有 用 的 语句 ， 如 USE 和 SHOW FUNCTIONS 等 。8.1 节 包 含 了 有 关 system 
catalog 和 Presto 语句 的 更 多 信息 。 


知道 有 哪些 catalog、schema 和 表 后 ， 就 可 以 使 用 标准 SQL 来 查询 数据 了 。 
可 以 查看 有 哪些 region: 


SELECT name FROM tpch.sf1.region; 
name 

AFRICA 

AMERICA 

ASIA 

EUROPE 

MIDDLE EAST 

(5 rows) 


可 以 返回 数据 的 一 个 子 集 并 对 列表 排序 : 











SELECT name 
FROM tpch.sf1.region 
WHERE name like 'A%' 
ORDER BY name DESC; 
name 
ASIA 
AMERICA 
AFRICA 
(3 rows) 


也 支持 连接 多 个 表 以 及 其 他 SQL 标准 中 的 功能 : 


SELECT nation.name AS nation, region.name AS region 
FROM tpch.sf1.region, tpch.sf1.nation 
WHERE region.regionkey = nation.regionkey 
AND region.name LIKE 'AFRICA'; 
nation | region 
a a 
MOZAMBIQUE | AFRICA 


MOROCCO | AFRICA 
KENYA | AFRICA 
ETHIOPIA | AFRICA 
ALGERIA | AFRICA 
(5 rows) 


Presto 支持 | | 作为 字符 串 连 接 运算 符 。 你 也 可 以 使 用 算术 运算 符 ， 如 + 和 -。 








可 以 将 前 面 的 查询 改 为 使 用 JOIN， 并 将 返回 的 字符 串 结 果 连 接 成 一 个 字段 : 














SELECT nation.name || ' / ' || region.name AS Location 


FROM tpch.sf1.region JOIN tpch.sf1.nation 
ON region.regionkey = nation.regionkey 
AND region.name LIKE 'AFRICA'; 
Location 

MOZAMBIQUE / AFRICA 

MOROCCO / AFRICA 

KENYA / AFRICA 

ETHIOPIA / AFRICA 

ALGERIA / AFRICA 

(5 rows) 








除了 这 些 运算 符 ，Presto 还 支持 各 种 各 样 的 函数 ， 它 们 复杂 程度 各 不 相同 。 在 Presto 中 ， 


可 以 使 用 SHOW FUNCTIONS 语句 显示 这 些 函 数 的 列表 。 


下 面 是 一 个 简单 的 示例 ， 它 可 以 计算 所 有 订单 的 平均 价格 ， 并 输 





SELECT round(avg(totalprice)) AS average price 
FROM tpch.sf1.orders; 
average_price 
151220.0 
(1 row) 








HH 四舍五入 之 后 的 整数 值 . 
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关于 SQL 使 用 的 更 详细 信息 ， 参 见 Presto 的 文档 和 本 书 第 8 章 。Presto 官方 网 站 上 有 国 数 
和 运算 符 的 相关 信息 ， 第 9 章 也 提供 了 很 好 的 概览 和 更 多 的 示例 。 





3.7 小结 

Presto 已 可 以 启动 并 运行 ， 你 可 以 连接 到 一 个 数据 源 并 使 用 SQL 来 查询 它 。 你 能 够 使 用 
Presto CLI 或 者 在 其 他 应 用 程序 中 使 用 JDBC 来 连接 Presto。 

有 这 一 功能 强大 的 组 合 在 手 ， 你 已 经 准备 好 进一步 研究 了 。 在 接 下 来 的 章节 里 ， 我 们 将 学 
习 如 何 进 行 大 规模 的 生产 环境 部 署 、 理 解 Presto 的 架构 并 了 解 SQL 使 用 的 细节 。 














第 二 部 分 
深入 理解 Presto 





你 已 经 初步 了 解 了 Presto 及 其 多 种 使 用 场景 ， 还 安装 并 使 用 了 它 ， 下 面 可 以 深入 学 习 
Presto 的 底层 设计 了 。 























在 本 书 的 第 二 部 分 ， 你 将 学 习 Presto 的 内 部 工作 原理 ， 为 在 生产 环境 下 安装 、 使 用 、 运 行 
以 及 调 优 Presto 做 准备 。 








这 一 部 分 还 将 详细 讨论 如 何 连接 数据 产 ， 然 后 利用 Presto 对 SQL 语句 、 运 算 符 、 函 数 等 的 
支持 查询 数据 源 。 


第 4 章 


Presto 的 架构 





前 面 几 章 介绍 了 Presto 及 其 初始 安装 和 使 用 ， 本 章 来 讨论 Presto 的 架构 。 我 们 将 深入 介绍 
Presto 的 查询 执行 模型 、 查 询 计划 以 及 基于 代价 的 查询 优化 算法 等 相关 概念 。 


首先 本 章 从 宏观 上 介绍 Presto 的 架构 组 件 。 大 致 了 解 Presto 的 工作 方式 非常 重要 ， 特 别 是 
要 自己 安装 和 维护 一 个 Presto 集群 (参见 第 5 章 ) 时 。 


然后 本 章 会 在 讨论 Presto 的 执行 模型 时 更 深入 地 介绍 这 些 组 件 。 这 些 知识 是 你 诊断 和 调 优 
慢 查 询 (参见 第 8 章 ) 或 向 Presto 开源 项 目 贡献 代码 的 基础 。 

全 全 一 一 
4.1 集群 中 的 协调 器 和 工作 市 点 


如 果 按 照 第 2 章 介绍 的 方法 安装 并 使 用 Presto， 它 就 只 会 运行 在 一 台 机 器 上 ， 这 种 部 署 方 
式 不 具备 可 扩展 性 且 性 能 受 限 。 











Presto 是 一 个 分 布 式 SQL 查询 引擎， 类 似 于 大 规模 并 行 处 理 (massively parallel processing， 
MPP) 数据 库 。Presto 通过 在 整个 集群 的 服务 器 上 分 配 处 理 任 务 来 实现 横向 扩展 ， 而 非 通 
过 提高 单 台 服 务 器 性 能 来 进行 纵向 扩展 。 这 意味 着 ， 你 可 以 通过 添加 更 多 的 计算 节点 来 获 
得 更 强大 的 处 理 能 力 。 


基于 这 种 架构 ，Presto 的 查询 引擎 可 以 在 集群 内 的 计算 节点 上 并 行 处 理 海量 数据 上 的 SQL 
查询 。 在 每 个 计算 市 点 上 ，Presto 都 以 单个 服务 端 进程 的 形式 运行 。 一 个 Presto 集群 由 多 
个 被 配置 为 相互 协作 的 Presto 市 点 所 组 成 。 


图 4-1 是 一 个 具有 单个 协调 器 和 多 个 工作 节点 的 Presto 集群 的 概览 。 用 户 使 用 客户 端 程序 
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(如 使 用 JDBC 驱动 的 工具 或 Presto CLI) 连接 到 集群 中 的 协调 器 。 协 调 器 之 后 协调 工作 
点 访问 数据 源 。 




















图 4-1: 包含 协调 器 和 工作 节点 的 Presto 架构 概览 
协调 器 用 于 接受 用 户 查 询 并 管理 工作 节点 以 执行 查询 工作 。 
工作 节点 负责 执行 任务 和 处 理 数 据 。 


协调 器 上 通常 会 运行 一 个 节点 发 现 服务 (discovery service) ， 工 作 节 点 通过 注册 到 此 服务 
以 加 入 集群 。 


客户 端 、 协 调 器 和 工作 节点 之 间 的 通信 和 数据 传输 完全 通过 基于 HTTP/HTTPS 的 RESTful 
API 调用 。 





图 4-2 展示 了 集群 里 协调 器 和 工作 节点 〈 以 及 工作 节点 之 间 ) 是 如 何 通信 的 。 协 调 器 为 工 
作 节 点 分 配 任务 、 更 新 状态 并 从 工作 节点 获取 顶层 的 结果 集 返 回 给 用 户 。 工 作 节 点 从 数据 
源 以 及 运行 在 其 他 市 点 上 的 上 游 任务 中 获取 数据 。 























4.2 协调 器 


Presto 协调 器 负责 接收 用 户 SQL 查询 、 解析 查询 语句、 规划 查询 执行 并 管理 工作 节点 
协调 器 是 Presto 集群 的 大 脑 ， 所 有 客户 端 应 用 程序 都 会 连接 它 。 用 户 可 以 通过 Presto CLI、 
使 用 JDBC 或 ODBC 驱动 的 应 用 程序 以 及 其 他 语言 下 可 用 的 客户 端 库 来 与 协调 器 交互 。 协 
调 器 接收 客户 端 发 送 来 的 SQL 语句 (如 SELECT 查询 ) 并 执行 。 


一 个 Presto 集群 至 少 包 含 一 个 协调 器 ， 可 能 包含 一 个 或 多 个 工作 节点 。 在 开发 和 测试 场景 
下 ， 单 个 Presto 实例 可 以 同时 承担 协调 右 和 工作 贡 点 的 职责 。 


协调 器 会 跟踪 每 个 工作 节点 的 动态 ， 并 协调 查询 任务 的 执行 。 对 于 一 条 查询 ， 协 调 左 将 创 
建 一 个 包含 多 个 Stage (阶段 ) 的 逻辑 模型 。 


图 4-3 展示 了 客户 端 、 协 调 器 和 工作 节点 之 间 的 通信 。 









































SELECT id, state... 














4-3: 处 理 SQL 语句 时 客户 端 、 协 调 器 和 工作 节点 之 间 的 通信 


一 旦 接收 到 一 条 SQL 语句 ， 协 调 器 就 负责 解析 、 分 析 、 优 化 和 调度 查询 任务 在 Presto 工 
作 市 点 上 的 执行 。 查 询 语 句 被 翻译 成 一 系列 相连 的 任务 (Task)， 这 些 任务 被 分 发 到 各 个 
工作 节点 上 执行 。 在 工作 节点 处 理 数据 的 同时 ， 协 调 器 会 将 结果 抽取 出 来 放 到 输出 缓冲 区 
中 ， 并 将 缓冲 区 的 内 容 暴 露 给 客户 端 。 一 旦 客户 端 读 完 输出 缓冲 区 的 内 容 ， 协 调 器 就 会 代 
表 客 户 端 向 工作 节点 请 求 更 多 的 数据 。 另 外 ， 工 作 节点 也 在 不 断 地 与 数据 源 交 互 并 从 中 读 
取 数 据 。 最 终 ， 客 户 端 不 断 地 请 求 数据 ， 工 作 节 点 则 不 断 地 从 数据 源 读 取 数 据 并 提供 给 客 
户 端 ， 直 到 查询 执行 结束 。 


协调 器 、 工 作 节 点 和 客户 端 基 于 HTTP 进行 通信 。 


4.3 ”节点 发 现 服务 


Presto 使 用 节点 发 现 服务 来 发 现 集群 中 的 所 有 节点 。 每 个 Presto 实例 在 启动 时 都 会 注册 到 
发 现 服务 并 定期 发 送 心跳 信号 。 这 样 一 来 ， 协 调 器 就 能 够 维护 一 个 可 用 工作 节点 的 最 新 列 
表 ， 并 用 它 来 调度 查询 执行 
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如 果 无 法 接收 到 一 个 工作 市 点 的 心跳 信号 ， 节 点 发 现 服务 就 会 触发 错误 检测 器 ， 此 后 该 工 
作 节 点 不 会 再 参与 新 的 任务 。 


为 了 简化 部 署 并 避免 运行 额外 的 服务 ，Presto 的 协调 器 通常 会 运行 一 个 内 秽 版 的 节点 发 现 
服务 。 因 为 它 与 Presto 共享 一 个 HTTP 服务 端 ， 所 以 使 用 同一 个 端口 。 








因此 ， 工 作 节 点 通常 将 市 点 发 现 服务 的 配置 指向 协调 器 的 主机 名 和 端口 。 


4.4 工作 节点 


工作 节点 是 Presto 集群 中 的 一 个 服务 端 程序 。 它 负责 执行 协调 器 分 配 的 任务 并 处 理 数据 。 
工作 节点 使 用 连接 器 从 数据 产 获取 数据 ， 它 们 相互 之 间 也 会 交换 中 间 数 据 。 它 们 将 最 终 的 
结果 数据 发 送 给 协调 器 ， 由 协调 器 负责 收集 来 自 各 个 工作 节点 的 结果 并 发 送 给 客户 端 


在 安装 时 ， 工 作 节 点 需要 知道 集群 的 节点 发 现 服务 所 在 的 主机 名 或 耳 地 址 。 工 作 市 点 会 在 
启动 时 将 自己 注册 到 市 点 发 现 服务 上 ， 以 便 协 调 器 向 其 分 配 任 务 。 














工作 布点 使 用 HTTP 与 其 他 工作 市 点 和 协调 器 通信 。 


图 4-4 展示 了 多 个 工作 节点 如 何 从 数据 源 获 取 数 据 并 合作 处 理 数据 ， 直 到 其 中 一 个 节点 可 
以 向 协调 器 发 送 结果 。 

















图 4-4: 集群 中 的 工作 节点 相互 协作 来 处 理 SQL 语句 和 数据 


4.5 基于 连接 器 的 架构 


Presto 存储 与 计算 分 离 的 核心 是 基于 连接 器 的 架构 。 连 接 器 为 Presto 提供 了 连接 任意 数据 
源 的 接口 。 


每 个 连接 器 在 底层 数据 源 上 提供 了 一 个 基于 表 的 抽象 。 只 要 数据 可 以 用 Presto 支持 的 数据 
类 型 表示 成 表 、 列 和 行 ， 就 可 以 创建 连接 器 并 让 查询 引擎 使 用 这 些 数据 进行 查询 处 理 。 












































Presto 提供 了 服务 提供 者 接口 (service provider interface，SPI) 一 一 一 种 用 于 实现 连接 器 
的 API。 通 过 在 连接 器 中 实现 SPI，Presto 就 可 以 在 内 部 使 用 标准 操作 来 连接 到 任意 数据 源 
并 执行 操作 。 连 接 绒 负责 处 理 与 特定 数据 源 相 关 的 细节 。 
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连接 器 实现 API 的 三 个 部 分 : 
。 获取 表 、 视 图 、schema 元 数据 的 操作 ; 
产生 数据 分 区 的 逻辑 单位 的 操作 ， 用 于 Presto 的 并 行 读 写 ; 
在 源 数 据 和 查询 引擎 所 需 的 内 存 数据 格式 之 间 进 行 转换 的 数据 读 取 和 写 入 组 件 。 














Presto 提供 了 许多 系统 的 连接 器 ， 如 HDFS/Hive、MySQL、PostgreSQL、MS SQL Server、 
Kafka、Cassandra、Redis 等 。 第 6 章 和 第 7 章 将 介绍 其 中 一 些 连接 器 。 可 用 的 连接 器 还 在 
持续 增加 ， 你 可 以 从 Presto 文档 中 获得 其 支持 的 连接 器 的 最 新 列表 (参见 1.4.2 节 )。 





当 你 需要 连接 到 一 个 尚未 支持 的 数据 源 时 ， 也 可 以 利用 Presto 的 SPI 创建 自 定义 的 连接 
器 。 如 有 果 你 决定 创建 新 连接 器 ， 我 们 强烈 建议 你 先 了 解 Presto 的 开源 社区 、 寻 求 我 们 的 帮 
助 并 将 你 的 连接 器 贡献 出 来 ， 可 以 参考 1.4 节 以 获得 更 多 信息 。 如 果 组 织 内 有 独特 的 或 私 
有 的 数据 源 ， 可 能 也 需要 自 定义 连接 器 。 这 就 是 Presto 允许 用 户 使 用 SQL 查询 任何 数据 源 
的 原因 一 一 真正 的 SQL-on-Anything。 














图 4-5 展示 了 Presto SPI 包含 的 不 同 接口 ， 其 中 协调 器 使 用 的 是 元 数据 、 数 据 统 计 和 数据 
定位 接口 ， 工 作 届 点 使 用 的 是 数据 流 接口 。 
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图 4-5， Presto SPI 概览 


Presto 服务 端 程序 在 启动 时 以 插件 的 形式 加 载 连接 器 。 连 接 器 由 catalog 属性 文件 中 特定 的 
参数 配置 ， 并 从 插件 目录 中 加 载 。 第 6 章 将 进一步 探索 这 一 问题 。 


Presto 的 很 多 功能 使 用 了 基于 插件 的 架构 。 除 了 连接 器 ， 插 件 也 可 以 提供 事 
件 监听 器 、 访 问 控制 以 及 函数 和 数据 类 型 。 





4.6 catalog、schema 和 表 


Presto 集群 使 用 前 文 所 述 的 基于 连接 器 的 架构 处 理 所 有 查询 。 每 个 catalog 都 会 配置 一 个 
连接 器 来 访问 特定 的 数据 源 。 数 据 源 在 catalog 中 暴露 出 一 个 或 多 个 schema， 每 个 schema 
又 包含 表 。 表 提供 数据 行 ， 每 个 数据 行 由 一 些 具有 不 同 数据 类 型 的 列 组 成 。 可 以 在 第 8 章 
(特别 是 在 8.3 节 、8.4 节 和 8.6 节 ) 了 解 catalog、schema 和 表 的 更 多 信息 。 
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4.7 查询 执行 模型 


你 已 经 了 解 ， 在 实际 使 用 中 ，Presto 通常 部 署 为 包含 一 个 协调 器 和 多 个 工作 节点 的 集群 。 
接 下 来 介绍 Presto 如 何 处 理 实际 的 SQL 查询 语句 。 


有 关 Presto 的 SQL 支持 的 更 多 细节 ， 请 参见 第 8 章 和 第 9 章 。 





执行 模型 是 在 Presto 中 进行 查询 性 能 调 优 必 备 的 基础 知识 。 


回忆 一 下 ， 终 端 用 户 通 过 CLI、 使 用 ODBC 或 JDBC 的 客户 端 或 其 他 客户 端 库 发 送 SQL 
语句 到 协调 器 ， 协 调 器 之 后 调用 工作 节点 从 数据 源 获 得 数据 、 创 建 结果 数据 集 并 将 结果 返 
回 给 客户 端 。 





我 们 先 仔细 了 解 一 下 协调 器 内 部 的 情况 。SQL 语句 首先 以 文本 形式 提交 到 协调 器 ， 协 调 器 
解析 和 分 析 这 条 语句 ， 之 后 创建 一 个 由 Presto 内 部 数据 结构 表示 的 执行 计划 ， 叫 作 查 询 计 划 。 
图 4-6 展示 了 这 一 流程 。 查 询 计划 全 面 地 表示 了 一 条 SQL 语句 处 理 数据 和 返回 结果 所 需 进 
行 的 步骤 。 











4-6: 处 理 一 条 SQL 查询 语句 并 创建 查询 计划 


如 图 4-7 所 示 ， 查 询 计划 生成 过 程 利用 了 元 数据 SPI 和 数据 统计 SPI 来 创建 查询 计划 。 也 
就 是 说 ， 协 调 器 会 使 用 SPI 直接 连接 到 数据 源 ， 以 收集 有 关 表 和 其 他 元 数据 的 信息 。 






































图 4-7: 查询 计划 和 调度 的 SPI 





协调 器 通过 元 数据 SPI 获取 表 、 列 和 数据 类 型 的 信息 。 这 些 信息 用 于 对 查询 进行 语义 校 
验 、 类 型 检查 和 安全 检查 。 














统计 SPI 用 于 获取 行 数 和 表 大 小 的 信息 ， 从 而 在 计划 期 间 进行 基于 代价 的 查询 优化 。 


在 创建 分 布 式 查询 计划 时 会 利用 数据 位 置 SPI 来 生成 表 内 容 的 逻辑 切片 。 切 片 是 任务 分 配 
和 并 行 的 最 小 单位 。 











这 里 对 不 同类 型 SPI 的 划分 是 概念 上 的 ， 实 际 的 底层 Java API 以 更 细 粒 度 的 
多 式 划分 为 多 个 Java 包 。 


























分 布 式 查询 计划 是 简单 查询 计划 的 一 个 扩展 ， 它 包含 一 个 或 多 个 Stage。 简 单 查询 计划 被 
切 分 为 多 个 计划 片段 (plan fragment)。Stage 是 在 运行 时 的 计划 片段 ， 它 包含 对 应 计划 片 
段 所 描述 的 所 有 任务 。 

协调 器 将 查询 计划 切 分 成 Stage， 从 而 分 配给 集群 中 的 多 个 工作 节点 进行 并 行 处 理 ， 从 而 
加 快 整体 查询 的 执行 速度 。 多 个 Stage 会 被 组 织 成 一 棵 依赖 树 。Stage 的 数量 依赖 于 查询 的 
复杂 度 。 例 如 ， 查 询 的 表 、 返 回 的 列 、JOIN 语句 、WHERE 条 件 、GROUP BY 操作 和 其 他 SQL 
语句 都 可 能 影响 Stage 的 数量 。 


图 4-8 展示 了 集群 中 的 协调 器 如 何 将 逻辑 查询 计划 转换 为 分 布 式 查询 计划 。 



































查询 计划 © SS ”@ 


Stage1 


分 布 式 查询 计划 = 
全 -全 
Stage0 


4-8: 逻辑 查询 计划 到 分 布 式 查询 计划 的 转换 


分 布 式 执行 计划 定义 了 Stage 和 查询 在 Presto 集群 上 执行 的 方式 。 协 调 器 使 用 它 在 工作 节 
点 上 进一步 计划 和 调度 任务 。 一 个 Stage 通常 包含 一 个 或 多 个 任务 ， 每 个 任务 则 负责 处 理 
一 小 部 分 数据 。 


如 图 4-9 所 示 ， 协 调 器 将 一 个 Stage 里 的 任务 分 配给 集群 中 的 工作 节点 。 
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协调 器 














图 4-9: 协调 器 执行 的 任务 管理 


一 个 任务 处 理 数 据 的 单位 是 切片 。 切 片 代表 一 个 工作 节点 可 以 抽取 并 处 理 的 一 段 底 层 数 
据 ， 它 是 并 行 和 任务 分 配 的 单位 。 连 接 器 所 执行 的 特定 数据 操作 取决 于 底层 的 数据 源 。 


例如 ，Hive 连接 器 用 文件 的 路 径 、 读 取 偏 移 量 和 长 度 来 描述 切片 信息 ， 这 些 信息 指明 了 所 
要 处 理 文件 的 区 域 。 


源 Stage 的 任务 以 page 的 形式 生产 数据 , 每 个 page 都 是 以 列 式 存储 格式 表示 的 一 系列 行 。 
这 些 page 传输 到 下 游 的 中 间 Stage。Exchange 算 子 从 上 游 Stage 中 读 取 数据 ， 从 而 在 不 同 
Stage 之 间 传 输 page。 


在 连接 器 的 帮助 下 ， 源 任务 使 用 数据 源 SPI 从 底层 数据 源 获取 数据 。 这 些 数据 以 page 的 形 
式 在 Presto 的 查询 引擎 之 中 传送 。 算 子 根据 它们 的 语义 处 理 接收 到 的 page 并 产生 新 page。 
例如 ，FitLter 算 子 会 丢弃 过 滤 掉 的 行 ，Projection 算 子 会 生成 持 有 新 的 派生 列 的 page 等 。 
包含 在 一 个 任务 里 的 一 串 算 子 叫 作 流水 线 。 流 水 线 中 的 最 后 一 个 算 子 通常 会 将 它 输 出 的 
page 放置 在 任务 的 输出 缓冲 区 中 。 下 游 任务 的 Exchange 算 子 会 从 上 游 任务 的 输出 缓冲 区 
中 消费 page。 所 有 这 些 操作 都 在 不 同 的 工作 节点 上 并 行 运行 ， 如 图 4-10 所 示 。 



































图 4-10: 切片 中 的 数据 在 不 同 任务 之 间 传 输 并 在 不 同 工 作 节点 上 处 理 














注 1: 这 里 的 page (页 面 ) 与 一 般 操作 系统 语义 下 的 页 面 不 同 。 一 一 译 者 注 
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因此 ， 任 务 是 运行 时 分 配给 一 个 工作 节点 的 计划 片段 。 在 任务 创建 之 后 ， 它 会 为 每 个 切片 
初始 化 一 个 驱动 。 每 个 驱动 都 是 包含 多 个 算 子 的 流水 线 的 一 个 实例 ， 并 且 负 责 处 理 切片 中 
的 数据 。 如 图 4-11 所 示 ， 根 据 Presto 配置 和 环境 ， 一 个 任务 可 以 使 用 一 个 或 多 个 驱动 。 当 
所 有 驱动 都 执行 完 且 数据 被 传送 到 下 一 个 切片 时 ， 驱 动 和 任务 的 工作 就 结束 了 ， 它 们 之 后 
会 被 销毁 。 









































图 4-11: 具有 输入 输出 切片 的 任务 及 其 并 行 驱 动 


算 子 处 理 输入 数据 并 为 下 游 算 子 生产 输出 数据 。 常 见 的 算 子 包括 Tablescan ( 表 扫 描 )、 
Filter (过 兰 )、Jotn 和 Aggregate (聚合 )。 一 系列 相连 的 算 子 组 成 一 条 算 子 流水 线 。 例 
如 ， 你 可 以 拥有 一 条 流水 线 ， 它 先 扫 描 并 读 入 数据 ， 再 过 滤 数 据 ， 最 后 在 数据 上 执行 局 部 


聚合 。 

















要 处 理 一 条 查询 ， 协 调 器 首先 根据 来 自 连接 器 的 元 数据 创建 切片 列表 。 使 用 该 切片 列表 ， 
协调 器 开始 在 工作 市 点 上 调度 任务 ， 以 获取 其 中 的 数据 。 在 查询 执行 期 间 ， 协 调 器 跟踪 所 
有 可 用 于 处 理 的 切片 和 任务 在 工作 节点 上 执行 的 位 置 。 一 些 任务 完成 了 处 理 ， 并 产生 了 很 
多 供 下 游 处 理 的 切片 ， 协 调 器 就 会 继续 调度 更 多 的 任务 来 处 理 它们 ， 直 到 没有 待 处 理 的 切 
片 为 止 。 


一 旦 工作 节点 处 理 完了 所 有 切片 ， 全 部 数据 就 可 用 了 。 此 时 协调 器 会 将 结果 返回 给 客户 端 。 


4.8 查询 优化 


在 介绍 Presto 的 查询 优化 器 和 基于 代价 的 优化 之 前 ， 我 们 先 来 搭建 一 个 舞台 ， 把 我 们 的 考 
虑 限定 在 一 定 的 范围 内 。 我 们 在 一 个 查询 案例 的 基础 上 进行 探索 ， 以 帮助 你 理解 查询 优化 
的 过 程 。 


示例 4-1 是 一 个 在 TPC-H 数据 集 (参见 6.3 节 ) 上 的 查询 ， 它 计算 每 个 国家 (地 区 ) 订单 
的 累计 金额 ， 并 列 出 金额 最 高 的 5 个 国家 (地 区 )。 


示例 4-1 解释 查询 优化 过 程 的 查询 案例 
SELECT 
(SELECT name FROM region r WHERE regionkey = n.regionkey) AS region_name, 
n.name AS nation_name, 
sum(totalprice) orders_sum 
FROM nation n，orders o0, customer c 
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WHERE n.nationkey = c.nationkey 
AND c.custkey = o.custkey 
GROUP BY n.nationkey, regionkey, n.name 
ORDER BY orders_sum DESC 
LIMIT 5; 


我 们 先 来 理解 此 SQL 查询 的 结构 及 其 目的 。 


SELECT 语句 用 于 引用 FROM 语句 中 指定 的 3 个 表 (nation、orders 和 customer ) ， 并 陷 式 
地 定义 了 它们 之 间 的 CROSS JOIN 关系 。 

。 WHERE 条 件 语句 用 于 过 滤 掉 nation、orders 和 customer 3 个 表 中 不 匹配 的 行 。 

。 聚合 语句 GROUP BY regionkey 用 于 将 每 个 国家 (地区) 的 订单 价值 聚合 起 来 。 

。 子 查询 (SELECT name FROM region WHERE regionkey = n.regionkey) 用 于 从 region 表 中 
拉 取 区 域名 称 。 注 意 ， 这 是 一 个 关联 子 查询 ， 从 语义 上 讲 就 好 像 对 外 层 查 询 的 每 一 行 结 
果 都 会 执行 一 次 此 子 查询 一 样 。 

。 排序 语句 ORDER BY orders_sum DESC 将 结果 排序 后 再 返回 。 

LIMIT 语句 将 返回 结果 限制 为 5 行 ， 因 此 只 会 返回 订单 金额 之 和 排名 前 5 的 国家 或 地 区 ， 
甚 他 结果 会 被 丢弃 。 
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4.8.1 解析 和 分 析 

在 对 查询 的 执行 进行 规划 之 前 ， 需 要 先 解析 和 分 析 查 询 语句 。 可 以 在 第 8 章 和 第 9 章 找到 
有 关 SQL 语言 及 其 相关 名 法 规则 的 细节 。Presto 会 在 解析 查询 语句 时 验证 其 语法 ， 然 后 分 
析 查 询 。 


识别 查询 用 到 的 表 
表 按 catalog 和 schema 进行 组 织 ， 因 此 可 能 会 有 重 名 的 表 。 例 如 ，TPC-H 数据 集 在 不 同 
的 schema 下 提供 不 同 数据 量 的 orders 表 ， 如 sf19.orders 和 sf100.orders 等 。 


识别 查询 中 用 到 的 列 
使 用 列 限 定 引 用 符 orders.totalprice 可 以 唯一 地 指向 orders 表 的 totalprice 列 。 然 
而 ， 如 示例 4-1 所 示 ， 一 个 SQL 查询 通常 只 使 用 名 称 (如 totalprice) 来 引用 一 个 列 。 
Presto 分 析 器 可 以 决定 这 样 的 列 来 自 于 哪个 表 。 
































识别 ROW 值 中 的 字段 引用 
解 引 用 表达 式 c.bonus 既 可 能 指向 原名 为 c 的 表 中 的 bonus 列 ， 也 可 能 指向 别名 为 c 的 
表 中 的 bonus 列 。 或 者 ， 它 也 可 以 指向 名 为 c， 类 型 为 Row (一 种 拥有 命名 字段 的 结构 
体 类 型 ) 的 列 中 值 的 bonus 字段 。Presto 分 析 器 负责 决定 哪 一 种 情况 是 适用 的 ， 且 如 果 
出 现 混 淆 ， 它 会 优先 选择 引用 表 限 定 的 列 。 分 析 的 过 程 需 要 符合 SQL 语言 的 作用 域 和 
可 见 性 规则 。 在 优化 过 程 中 会 使 用 到 如 限定 符 消 歧 等 过 程 收集 的 信息 ， 因 此 优化 器 无 须 
再 理解 查询 语言 的 作用 域 规则 。 
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如 你 所 见 ， 查 询 分 析 器 的 职责 十 分 复杂 且 横 跨 很 多 领域 。 它 的 角色 相当 具有 技术 性 ， 但 只 
要 查询 语句 正确 ， 它 对 用 户 就 是 不 可 见 的 。 只 有 当 一 个 查询 违反 了 SQL 语法 ， 超 出 了 用 户 
权限 或 出 现 其 他 廖 误 时 ， 分 析 器 才 暴 露 其 存在 。 


当 查 询 分 析 完 成 ， 且 所 有 标识 符 都 被 处 理 和 解析 后 ，Presto 就 会 进入 下 一 个 步骤 : 查询 优化 。 


4.8.2 ”初始 查询 计划 

查询 计划 可 以 被 看 作 产生 查询 结果 的 程序 。SQL 是 一 种 声明 式 语言 : 用户 编 写 SQL 查询 
来 描述 他 们 想 要 从 系统 中 获得 的 数据 。 用 户 并 不 会 像 在 命令 式 编程 中 那样 指定 处 理 数据 和 
获得 结果 的 步骤 。 处 理 数据 以 歼 得 期 望 结 果 的 步骤 将 交 由 查询 优化 器 决定 。 


处 理 数据 的 一 连 串 步骤 通常 叫 作 查询 计划 (query plan)。 理 论 上 来 说 ， 得 到 相同 查询 结果 
的 查询 计划 的 数量 可 能 是 指数 级 的 。 这 些 查询 计划 的 性 能 千差万别 ，Presto 的 查询 优化 器 
会 试图 寻找 最 优 计划 。 产 生 相同 结果 的 查询 计划 叫 作 等 价 计划 。 


下 面 考 虑 示例 4-1 中 的 查询 语句 。 此 查询 最 直接 的 查询 计划 非常 接近 其 SQL 语法 结构 。 示 
例 4-2 展示 了 这 个 查询 计划 。 对 于 我 们 的 讨论 来 讲 ， 示 例 4-1 中 的 伪 代 码 应 该 简单 易 懂 。 
你 只 需要 知道 查询 计划 是 树 状 的 ， 执 行 从 叶子 市 点 开始 ， 沿 着 树 结构 逐步 上 升 。 


示例 4-2 示例 查询 计划 的 手动 化 简 后 的 直观 文本 表示 
- Limit[5] 
- Sort[orders_sum DESC] 
- LateralJoin[2] 
- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- Filter[c.nationkey = n.nationkey AND c.custkey = o.custkey] 
- CrossJoin 
- CrossJoin 
- TableScan[nation] 
- TableScan[orders] 
- TableScan[customer] 
- EnforceSingleRow[region name := r.namel] 
- Filter[r.regionkey = n.regionkey] 
- TableScan[region] 






























































查询 计划 中 的 每 个 元 素 都 可 以 用 直观 的 命令 式 风格 实现 。 例 如 ，Tablescan 算 子 从 底层 存 
储 中 访问 表 ， 并 返回 包含 表 中 所 有 行 的 结果 集 。Filter 算 子 接收 行 并 在 每 一 行 数据 上 应 用 
过 滤 条 件 ， 只 留 下 满足 条 件 的 行 。CrossJoiin 算 子 从 两 个 子 节点 接收 数据 集 ， 返 回 两 个 数 
据 集 中 行 的 所 有 组 合 ， 它 可 能 会 将 其 中 一 个 数据 集 存放 在 内 存 中 ， 从 而 避免 多 次 访问 底层 
存储 。 























最 新 版 本 的 Presto 更 改 了 这 些 查询 计划 算 子 的 名 称 。 例 如 ，TabtLescan 与 指 
定 了 表 的 ScanProject 是 等 价 的 ，Filter 算 子 被 重 命名 为 FilterProject, 但 
其 背后 的 思想 保持 不 变 。 
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现在 我 们 来 考虑 下 这 个 查询 计划 的 计算 复杂 度 。 在 知道 实际 实现 细节 之 前 ， 我 们 无 法 准确 
地 推测 一 个 查询 计划 的 复杂 度 ， 但 可 以 假设 一 个 查询 计划 节点 的 计算 复杂 度 不 会 低 于 其 产 
生 数 据 集 的 行 数 。 因 此 ， 我 们 可 以 用 描述 渐 近 复杂 度 下 界 的 大 Omega 表示 法 来 估算 复杂 
度 。 如 果 N、0O、C 和 RR 分 别 表 示 表 nation、orders、customer 和 region 表 的 行 数 ， 则 有 
以 下 内 容 。 

















。 Tablescan[orders] 算 子 读 取 orders 表 并 返回 0 行 数据 ， 则 其 复杂 度 是 Q(0)。 类 似 地 ， 
对 nation 和 customer 表 的 Tablescan 分 别 返 回 Y 和 C 行 ， 因 此 其 复杂 度 分 别 为 Q(N) 
和 Q(C)。 

。 TabtLeSscan[nation] 和 TabLeScan[orders] 之 上 的 CrossjJoin 节点 返回 nation 和 orders 
表 中 行 的 组 合 〈 正 交 积 )， 因 此 其 复杂 度 是 Q(N x O)。 

。 再 之 上 的 CrossJoin 节点 将 之 前 返回 NxO 行 的 CrossJoin 节 点 的 输出 ， 与 
Tablescan[customer] 的 输出 相 结合 ，customer 表 输 出 的 行 数 是 C， 因 此 总 的 复杂 度 是 
QWN x O x C)。 
底层 的 TableScan[region] 复杂 度 为 Q(R)， 但 其 上 的 LateralJoin 会 调用 它 和 NN 次 ， 聚合 
之 后 一 共有 N 行 被 返回 ， 因 此 总 的 计算 复杂 度 是 Q(R x NN)。 

Sort 操作 需要 排序 N 行 ， 它 的 计算 复杂 度 不 小 于 N x log(N)。 




















我 们 先 暂 时 忽略 其 他 操作 的 代价 ， 因 为 它们 与 分 析 过 的 复杂 度 相 比 可 忽略 不 计 。 之 前 查询 
计划 的 总 代价 至 少 是 QIN+ O+C+(N x O)+(N x O xO+(R XNN)+(N x log(N))]。 不 
知道 相对 表 大 小 的 情况 下 ， 此 式 可 以 化 简 为 Q[(V x O x OO+(R x NN)+(N x log(N))]。 可 
以 合理 地 假设 ，region 是 最 小 的 表 而 nation 是 次 小 的 表 ， 这 样 我 们 就 可 以 忽略 结果 中 第 
二 个 部 分 和 第 三 个 部 分 ， 最 终 化 简 的 结果 是 Q(N x O x C)。 


代数 公式 就 到 此 为 止 ， 接 下 来 看 一 下 实际 情况 。 假 设 一 个 热门 的 购物 网 站 有 来 自 200 个 国 
家 (地区) 的 1 亿 用 户 ， 总 共产 生 了 10 亿 订 单 。 这 两 个 表 的 CrossJoin 将 产生 2000 亿 亿 
(20 000 000 000 000 000 000) 行 数据 。 假 如 有 一 个 包含 100 个 节点 的 中 等 大 小 的 集群 ， 每 
个 市 点 每 秒 钟 可 以 处 理 100 万 行 数据 ， 则 我 们 需要 63 个 世纪 才能 处 理 完 查询 的 中 间 结 果 。 



























































当然 ，Presto 不 会 尝试 执行 这 样 原始 的 计划 。 但 这 一 初始 查询 计划 连接 了 SQL 语法 及 其 语 
义 的 世界 和 查询 优化 的 世界 。 查 询 优 化 的 职责 就 是 将 初始 查询 方案 转换 并 演化 为 一 个 等 价 
查询 方案 ， 在 Presto 集群 资源 有 限 的 情况 下 ， 至 少 在 合理 的 时 间 内 可 以 尽 可 能 快 地 执行 该 
计划 。 接 下 来 讨论 查询 优化 如 何 达 成 这 一 目标 。 


4.9 优化 规则 


本 市 将 介绍 Presto 中 实现 的 一 些 重 要 优化 规则 。 


























4.9.1 谓词 下 推 

谓词 下 推 (predicate pushdown) 可 能 是 最 重要 和 最 容易 理解 的 优化 规则 了 。 这 一 规则 将 
过 滤 条 件 移 动 到 尽 可 能 接近 数据 源 的 位 置 ， 因 此 ， 数 据 量 在 查询 开始 后 尽 可 能 早 地 开始 缩 
减 。 在 我 们 的 案例 中 ， 这 一 规则 将 原 Fitter 算 子 的 一 部 分 条 件 保留 在 新 的 简化 Filter 算 
子 中 ， 男 一 部 分 和 下 层 的 CrossJoin 算 子 合并 为 新 的 InnerJoin 算 子 。 新 的 查询 计划 如 示 
例 4-3 所 示 ， 为 了 可 读 性 我 们 省 略 了 部 分 内 容 。 











示例 4-3 将 crossJotn 和 Filter 转化 为 一 个 InnerJoin 


- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- Filter[c.nationkey = n.nationkey AND c.custkey = o.custkey] // 原始 Filter 算 子 
- CrossJoin 
- CrossJoin 
- TableScan[nation] 
- TableScan[orders] 
- TableScan[customer] 


- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- Filter[c.nationkey = n.nationkey] // 简化 后 的 FLLter 算 子 
- InnerJoin[o.custkey = c.custkey] // 合并 后 新 产生 的 InnerJoin 算 子 
- CrossJoin 
- TableScan[nation] 
- TableScan[orders] 
- TableScan[customer] 


原来 的 CrossJoin 算 子 被 转换 为 拥有 一 个 等 值 条 件 的 InnerJoiin 算 子 。 简 单 起 见 ， 假 设 可 
以 在 分 布 式 系统 里 以 等 于 产生 行 数 的 计算 复杂 度 实 现 这 一 Join 操作 。 这 意味 着 ， 谓 词 下 推 
规则 将 一 个 “至 少 ” 具 有 Q(N x O x C) 计算 复杂 度 的 CrossJoiin 转化 为 一 个 “恰好 ” 具 
有 QB( x O) 计算 复杂 度 的 Join 操作 。 





然而 ， 由 于 nation 表 和 orders 表 之 间 没 有 直接 的 限制 条 件 ， 谓 词 下 推 无 法 优化 这 两 表 之 
间 的 CrossJoin。 这 时 Cross Join 消除 规则 就 开始 发 挥 作用 了 。 


4.9.2 ”Cross Join 消 除 


在 没有 基于 代价 的 优化 器 的 情况 下 ，Presto 将 SELECT 查询 中 包含 的 表 按 照 它们 在 查询 语句 
中 出 现 的 顺序 执行 Join 操作 。 一 个 重要 的 例外 是 产生 Cross Join 时 〈 即 表 没 有 Join 条 件 )。 
在 绝 大 多 数 实际 场景 下 ， 我 们 不 希望 产生 Cross Join。 通 常 执 行 正 交 积 所 产生 的 行 之 后 会 
被 过 滤 掉 ， 但 执行 Cross Join 本 身 代 价 极 高 ， 可 能 永远 无 法 完成 。 





Cross Join 消除 规则 对 表 重 新 排序 ， 以 最 小 化 Cross Join 的 数量 (理想 状态 下 可 以 将 其 变 
为 0)。 在 没有 表 相 对 大 小 的 信息 时 ， 除 非 应 用 Cross Join 消除 规则 ， 否 则 表 的 Join 顺序 
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不 会 改变 ， 因 此 用 户 可 以 掌控 Join 顺序 。 在 我 们 的 案例 查询 上 应 用 Cross Join 消除 规则 的 
效果 如 示例 4-4 所 示 。 现 在 两 个 Join 都 变 成 了 Inner Join， 使 Join 的 整体 计算 代价 下 降 到 
Q@(C + 0) = 9(9)。 查 询 计划 的 其 他 部 分 仍 保持 原样 ， 因 此 整体 的 查询 计算 代价 变 为 至 少 
Q[O+ (R x N)+(N x log(N))]。 这 里 ， 代 表 orders 表 中 行 数 的 O 是 计算 复杂 度 的 主要 组 
成 部 分 。 


示例 4-4 重新 排列 Join 以 消除 Cross Join 
...[ 训 


- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- Filter[c.nationkey = n.nationkey] // 先 过 滤 nationkey 列 | 
- InnerJoin[o.custkey = c.custkey] // 然后 是 Inner Join custkey 
- CrossJoin 
- TableScan[nation] 
- TableScan[orders] 
- TableScan[customer] 








- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- InnerJoin[c.custkey = o.custkey] // 重新 排列 为 custkey 在 前 面 
- InnerJoin[n.nationkey = c.nationkey] // nationkey 在 后 面 
- TableScan[nation] 
- TableScan[customer] 
- TableScan[orders] 





4.9.3 TopN 


通常 ， 如 果 一 个 查询 有 LIMIT 语句 ， 那 么 它 之 前 会 有 一 个 ORDER BY 语句 。 没 有 排序 的 情况 下 
SQL 无 法 保证 会 返回 哪些 行 作 为 结果 。 在 我 们 的 查询 中 也 出 现 了 ORDER BY 和 LIMIT 的 组 合 。 


这 样 查询 的 一 种 执行 方式 是 ， 先 排序 所 有 产生 出 来 的 行 ， 然 后 只 保留 前 面 的 一 部 分 。 这 
种 方法 的 计算 复杂 度 是 8( 行 数 x log( 行 数 )， 空 间 复杂 度 是 @( 行 数 )。 但 是 ， 排 序 全 部 
结果 而 只 保留 其 中 一 个 很 小 的 子 集 是 相当 浪费 的 。 因 此 ， 有 一 个 优化 规则 将 ORDER BY 和 
紧 跟着 的 LIMIT 合并 成 一 个 TopN 计划 节点 。 在 查询 执行 时 ，TopN 节点 在 堆 中 维护 所 需 
行 数 的 结果 ， 以 流 处 理 的 方式 读 取 输 入 数据 并 更 新 堆 。 这 将 计算 复杂 度 简化 为 8( 行 数 x 
log(Limib)， 空 间 复杂 度 简化 为 9(Limit)。 现 在 查询 计算 的 总 代价 是 Q[IO+(R x N) +N]。 




















4.9.4 局 部 聚合 


Presto 无 须 将 orders 表 中 的 全 部 行 都 发 送 给 Join， 因 为 不 会 用 到 那些 独立 的 订单 。 我 们 的 
案例 查询 会 在 每 个 nation 上 执行 累加 totatprice 的 聚合 操作 ， 因 此 ， 如 示例 4-5 所 示 ， 我 
们 可 以 预 聚 合 这 些 行 。 通 过 聚合 数据 ， 我 们 可 以 减少 流 经 下 游 Join 的 数据 量 。 这 里 返回 的 
结果 还 不 完整 ， 因 此 称 为 预 聚合 (pre-aggregation)， 但 产生 的 数据 量 可 能 大 大 减少 ， 显 著 
地 提高 了 查询 性 能 。 
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示例 4-5 局 部 预 聚 合 可 以 显 车 提高 性 能 


- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- InnerJoin[c.custkey = o.custkey] 
- InnerJoin[n.nationkey = c.nationkey] 
- TableScan[nation] 
- TableScan[customer] 
- Aggregate[by custkey; totalprice := sum(totalprice)] 
- TableScan[orders] 


为 了 提高 并 行 性 ， 这 类 预 聚 合 采用 所 谓 局 部 聚合 (partial agEregation 1 来 实现 。 这 里 只 显 
示 了 简化 的 查询 计划 ， 如 果 你 实际 运行 EXPLAIN 命令 查看 查询 计划 ， 得 到 的 结果 会 与 这 里 
显示 的 不 同 。 








示例 4-5 中 显示 的 预 聚合 并 不 一 定 总 能 提高 性 能 。 如 果 局 部 聚合 不 能 减少 数 
据 量 ， 则 其 将 对 查询 性 能 有 害 。 因 此 ， 此 优化 规则 目前 是 默认 禁用 的 ， 你 可 
以 使 用 push_partial_aggregation_through_join 会 话 选项 来 激活 它 。 默 认 情 
况 下 ，Presto 将 局 部 聚合 放置 在 Join 之 上 以 减少 Presto 节点 之 间 通 过 网 络 传 
输 的 数据 量 。 要 充分 利用 局 部 聚合 ， 我 们 可 能 需要 考虑 非 简化 的 查询 计划 。 
































4.10 ”实现 规则 


目前 ， 我 们 所 讨论 的 都 是 优化 规则 ， 它 们 的 目的 是 缩短 查询 处 理 时 间 、 降 低 查 询 内 存 消耗 
和 减少 通过 网 络 传输 的 数据 量 。 然 而 ， 即 使 在 我 们 的 示例 查询 中 ， 初 始 查 询 计 划 仍 包含 一 
个 还 未 被 实现 的 操作 : Lateral Join。4.10.1 节 介 绍 Presto 如 何 处 理 这 类 操作 。 


4.10.1 Lateral Join 去 关联 化 


Lateral Join 可 以 通过 如 下 方式 实现 : 使 用 for 循环 迭代 一 个 数据 集中 的 所 有 行 ， 并 对 每 一 
行 执 行 另 一 次 的 查询 。 使 用 这 样 的 实现 方法 是 可 能 的 ， 但 并 非 Presto 处 理 类 似 场 景 所 采取 
的 方法 。 相 反 ，Presto 将 子 查 询 去 关联 化 (decorrelate)， 它 将 所 有 的 相关 条 件 拉 取 上 来 并 
形成 一 个 标准 的 Left Join。 在 SQL 里 ， 这 相当 于 将 下 列 查询 : 
SELECT 
(SELECT name FROM region r WHERE regionkey = n.regionkey) 
AS region_name, 


n.name AS nation_name 
FROM nation n 





























SELECT 
r.name AS region_name， 
n.name AS nation_name 
FROM nation n LEFT OUTER JOIN region r ON r.regionkey = n.regionkey 
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尽管 我 们 可 互 换 两 种 查询 方式 ， 但 熟悉 SQL 语义 的 细心 读者 立刻 能 发 现 它 们 并 非 完全 等 
价 。 第 一 个 查询 在 region 表 包 含 具有 相同 regionkey 的 重复 条 目 时 会 执行 失败 ， 而 第 二 个 
查询 不 会 ， 而 是 产生 更 多 的 结果 行 。 因 此 ，Lateral Join 去 关联 化 在 Join 之 外 还 进行 两 个 额 
外 的 操作 : 首先 ， 它 为 输入 的 行 编号 ， 使 它们 可 以 相互 区 分 ， 其 次 ， 它 会 在 Join 之 后 检查 
是 否 存在 重复 行 ， 如 示例 4-6 所 示 。 如 果 检 查 出 重复 行 ， 查 询 处 理会 以 失败 告终 ， 因 此 可 
以 保留 原始 的 查询 语义 。 



































示例 4-6 ”Lateral Join 去 关联 化 需要 额外 的 检查 


- TopN[5; orders_sum DESC] 
- MarkDistinct & Check 
- LeftjJoin[n.regionkey = r.regionkey] 
- AssignUniquelId 
- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 


- TableScan[region] 


4.10.2 Semi-join (IN) 去 关联 化 


子 查 询 并 不 只 用 于 在 查询 中 拉 取 信息 (如 上 面 Lateral Join 的 例子 所 示 )， 它 也 常用 于 配合 
IN 谓词 过 滤 行 。 事 实 上 ，IN 谓词 既 可 以 用 于 Filter (WHERE 语句 ) 也 可 以 用 于 Projection 
(SELECT 语句 )。Projection 中 的 IN 谓词 明显 不 是 EXISTS 这 样 一 个 简单 的 布尔 值 运 算 符 。 
在 这 里 ，IN 谓词 可 以 计算 为 true、false 和 null。 











示例 4-7 展示 了 一 个 查询 ， 用 于 找 出 客户 和 物品 供应 商 来 自 同一 个 国家 (地区) 的 订单 。 
查询 这 样 的 订单 非常 有 用 ， 比 如 你 可 以 绕 过 分 发 中 心 直 接 从 供应 商 发 货 到 消费 者 ， 以 此 来 
降低 运送 成 本 或 使 运送 更 环保 。 


示例 4-7 ”Semi-join (IN) 的 查询 案例 
SELECT DISTINCT o.orderkey 
FROM lineitem 1 
JOIN orders oO ON o.orderkey = L.orderkey 
JOIN customer C ON o.custkey = c.custkey 
WHERE c.nationkey IN ( 





-- 多 次 调用 的 子 查 询 

SELECT s.nationkey 

FROM part p 
JOIN partsupp ps ON p.partkey = ps.partkey 
JOIN supplier s ON ps.suppkey = s.suppkey 


WHERE p.partkey = L.partkey 
); 


和 Lateral Join 一 样 ， 它 可 以 通过 循环 迭代 外 部 查询 的 行 并 多 次 调用 子 查 询 来 实现 。 这 里 的 
子 查询 会 查找 一 个 物品 所 有 的 供应 商 ， 以 及 这 些 供应 商 所 在 的 所 有 国家 (地 区 )。 





x 


Presto 会 通过 子 查 询 去 关联 化 的 方法 来 避免 这 样 做 一 一 子 查 询 会 在 去 除 关联 条 件 的 情况 下 
求 值 一 次 ， 之 后 再 用 关联 条 件 与 外 部 查询 Join 在 一 起 。 这 么 做 最 复杂 的 部 分 是 确保 Join 不 
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邮 


会 重复 返回 结果 行 (因此 使 用 了 去 重 聚 合 ) ， 以 及 变换 可 以 正确 地 保留 IN 谓词 的 逻辑 ， 该 
逻辑 可 能 返回 三 个 值 : true、false 和 null。 








在 这 里 ， 去 重 聚合 使 用 与 Join 相同 的 分 区 方式 ， 因 此 可 以 流 式 执 行 ， 无 须 网 络 数 据 交 换 并 
且 使 内 存 开销 降 到 最 低 。 


4.11 基于 代价 的 优化 器 


4.8 矶 讲解 了 Presto 的 优化 器 如 何 将 文本 查询 语句 转化 为 可 执行 且 优 化 过 的 查询 计划 ， 
市 阐释 了 很 多 优化 规则 以 及 它们 对 提升 查询 性 色 A 
执行 所 必需 的 实现 规则 。 


我 们 从 接收 用 户 查询 开始 ， 一 直 介 绍 到 生成 最 终 的 执行 计划 。 在 这 个 过 程 中 ， 我 们 浏览 
一 些 挑选 出 来 的 计划 转换 方法 ， 这 些 重要 的 方法 使 计划 执行 的 速度 有 了 数量 级 的 提升 ， 甚 
至 让 查询 的 执行 变 为 可 能 


现在 让 我 们 更 深入 地 了 解 计划 转换 ， 它 们 在 决策 时 不 但 基于 查询 本 身 的 形状 ， 而 且 更 重要 
的 是 ， 它 们 也 将 查询 数据 的 形状 考虑 在 内 。 这 就 是 Presto 先进 的 基于 代价 的 优化 器 (cost- 
based optimizer，CBO) 所 做 的 工作 。 























4.11.1 代价 的 概念 

我 们 之 前 使 用 一 个 查询 案例 作为 工作 模型 ， 为 了 方便 易 懂 ， 这 次 也 采用 类 似 的 方式 。 示 例 
4-8 是 之 前 查询 案例 的 变形 ， 它 移 除 了 与 本 市 内 容 无 关 的 一 些 查 询 语句 。 因 此 ， 我 们 可 以 
专注 于 查询 优化 器 基于 代价 的 决策 。 


示例 4-8 基于 代价 优化 的 查询 案例 
SELECT 
n.name AS nation_name, 
avg(extendedprice) as avg_price 
FROM nation n，orders o0o, customer c, lineitem \ 
WHERE n.nationkey = c.nationkey 
AND c.custkey = o.custkey 
AND o.orderkey = L.orderkey 
GROUP BY n.nationkey, n.name; 


如 有 果 不 基 于 代价 进行 决策 ， 查 询 优化 器 就 会 使 用 规则 来 优化 此 查询 的 初始 计划 ， 产 生 的 计 
划 如 示例 4-9 所 示 。 这 个 计划 完全 由 SQL 查询 的 语法 结构 所 决定 。 优 化 器 只 使 用 句法 信息 
进行 优化 ， 因 此 有 时 被 称 为 旬 法 优化 器 。 这 个 名 称 故意 起 得 有 点 滑稽 ， 因 为 这 种 优化 方法 
实在 非常 简单 。 由 于 查询 计划 只 基于 查询 本 身 ， 因 此 你 可 以 通过 更 改 查 询 中 表 的 句法 顺序 
来 手动 调整 和 优化 查询 。 

















Presto 的 架构 | 55 


示例 4-9 来 自 名 法 优化 器 的 Join 顺序 
- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- InnerJoin[o.orderkey = L.orderkey] 
- InnerJoin[c.custkey = o.custkey] 
- InnerJoin[n.nationkey = c.nationkey] 
- TableScan[nation] 
- TableScan[customer] 
- TableScan[orders] 
- TableScan[ lineitem] 





下 面 假设 我 们 换 一 种 方式 来 编写 这 条 查询 ， 仅 仅 改变 一 下 WHERE 语句 中 条 件 的 顺序 : 


7 











SELECT 
n.name AS nation_name, 
avg(extendedprice) as avg_price 
FROM nation n，orders o, customer c, lineitem Ll 
WHERE c.custkey = o.custkey 
AND o.orderkey = L.orderkey 
AND n.nationkey = c.nationkey 
GROUP BY n.nationkey, n.name; 


就 产生 了 一 个 具有 不 同 Join 顺序 的 查询 计划 : 


- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- InnerJoin[n.nationkey = c.nationkey] 
- InnerJoin[o.orderkey = L.orderkey] 
- InnerJoin[c.custkey = o.custkey] 
- TableScan[customer] 
- TableScan[orders] 
- TableScan[lineitem] 
- TableScan[nation] 


条 件 语 句 的 一 个 简单 的 改变 ， 就 会 影响 查询 计划 ， 进 而 会 影响 查询 的 性 能 ， 这 对 SQL 分 
析 师 来 说 非常 环 手 。 创 建 高 效 的 查询 也 因此 需要 了 解 Presto 处 理 查询 的 内 部 知识 。 查 询 
的 编写 者 不 需要 了 解 如 此 深入 的 知识 才能 充分 利用 Presto 的 性 能 。 除 了 人 工 编 写 的 查询 ， 
Apache Superset、Tableau、Qlik 或 MicroStrategy 之 类 的 工具 不 会 生成 对 Presto 来 说 是 最 优 
的 查询 。 


CBO 可 以 确保 ， 这 个 查询 的 两 个 变种 可 以 产生 同样 的 最 优 查 询 计划 ， 从 而 在 Presto 的 查询 
引擎 上 进行 处 理 。 





























从 时 间 复 杂 度 的 角度 来 看 ， 无 论 是 将 nation 表 Join 到 customer 表 ， 还 是 反 过 来 将 customer 
表 Join 到 nation 表 ， 都 无 关 紧要 。 两 个 表 都 需要 处 理 ， 在 使 用 Hash Join 时 ， 总 的 运行 时 
间 与 输出 行 数 成 正比 。 然 而 ， 时 间 复 杂 度 并 不 是 唯一 重要 的 事情 。 通 常 对 于 处 理 数 据 的 程 
序 ， 尤 其 是 大 规模 数据 库 系统 来 说 ， 内 存 使 用 和 网 络 流量 也 很 重要 ，Presto 也 需要 将 它们 
考虑 在 内 。 要 更 好 地 推测 Join 的 内 存 和 网 络 使 用 ，Presto 需要 更 好 地 理解 Join 是 如 何 实 
现 的 。 


























无 论 在 单 查询 还 是 并 发 查询 任务 中 ，CPU 时 间 、 内 存 需 求 和 网 络 带宽 的 使 用 都 是 构成 查询 
执行 时 间 的 三 个 维度 ， 这 些 维度 组 成 了 Presto 的 代价 。 


4.11.2” Join 的 代价 

使 用 相等 条 件 (=) Join 两 个 表 时 ，Presto 可 以 实现 Hash Join 的 扩展 版 算法 。 其 中 一 个 表 
称 为 构建 人 出 ， 这 个 表 的 内 容 以 Join 条 件 使 用 的 列 作为 键 ， 构 建 一 个 散 列 查询 表 。 另 一 个 表 
称 为 探测 侧 ， 一 旦 散 列 查找 表 构 建 完成 ， 就 会 使 用 探测 侧 表 的 行 去 构建 侧 的 散 列 表 中 以 常 
数 时 间 查 找 匹配 的 行 。 默 认 情 况 下 ，Presto 会 使 用 三 层 散 列 以 尽 可 能 地 并 行 处 理 。 


1. 基于 Join 条 件 列 的 散 列 值 将 两 个 Join 的 表 的 内 容 分 配 到 各 个 工作 节点 。 应 该 匹配 在 一 
起 的 行 具 有 相同 的 Join 条 件 列 ， 因 此 也 会 分 配 到 同一 个 节点 。 这 样 做 相当 于 将 问题 的 
规模 除 以 这 一 Stage 使 用 到 的 节点 数 。 节 点 级 别 的 数据 分 配 是 第 一 层 散 列 。 

2. 在 节点 级 别 上 ， 构 建 侧 进一步 使 用 散 列 国 数 将 任务 分 散 到 多 个 工作 线程 。 构 建 散 列表 是 
一 个 CPU 密集 的 过 程 ， 使 用 多 线程 完成 工作 可 以 极 大 地 提高 吞吐 量 。 

3. 每 个 工作 线程 最 后 给 出 完成 的 散 列 查询 表 的 一 个 分 区 。 每 个 分 区 本 身 也 是 一 个 散 列 表 。 
这 些 分 区 会 合并 成 第 二 层 的 查询 散 列表 ， 因 此 我 们 可 以 避免 将 探测 侧 的 处 理 也 分 散 到 多 
个 线程 。 探 测 侧 依 然 使 用 多 线程 处 理 ， 但 任务 是 批量 分 配 到 线程 上 的 ， 这 比 使 用 散 列 函 
数 将 探测 侧 的 数据 分 区 处 理 速 度 快 。 


如 你 所 见 ， 构 建 侧 的 数据 一 直 存 放 在 内 存 中 ， 以 快速 处 理 数据 。 当 然 ， 此 时 的 内 存 开销 也 
与 构建 侧 的 数据 量 成 正比 。 这 意味 着 构建 侧 的 数据 量 不 能 超过 节点 上 的 可 用 内 存 ， 同 时 也 
表示 可 用 于 其 他 操作 和 查询 的 内 存 变 少 了 。 与 Join 相关 的 不 仅 有 内 存 开 销 ， 而 且 还 有 网 络 
开销 。 之 前 介绍 的 算法 会 在 网 络 上 发 送 两 个 Join 表 的 内 容 ， 以 加 速 节 点 级 别 的 数据 分 配 。 


为 了 控制 Join 的 内 存 开销 ， 哪 个 表 会 成 为 构建 表 由 CBO 选择 。 在 特定 条 件 下 ， 优 化 器 可 
以 避免 其 中 一 个 表 的 网 络 传输 ， 这 样 可 以 减少 网 络 带宽 使 用 〈 即 减少 网 络 开销 )。 为 了 达 
成 这 一 目的 ，CBO 需要 了 解 Join 表 的 大 小 ， 这 些 数 据 由 表 统 计 信息 提供 。 


4.11.3” 表 统计 信息 
4.5 节 介 绍 了 连接 器 的 角色 ， 每 个 表 都 由 连接 器 提供 。 除 了 提供 表 的 schema 信息 和 对 实际 
数据 的 访问 ， 连 接 器 也 可 以 提供 表 和 列 的 统计 信息 : 


。 表 中 行 的 数量 ， 

。 列 中 不 同 值 的 数量 (基数 ) ， 
。 列 中 NULL 值 所 占 的 比例 ， 

。 列 的 最 大 值 和 最 小 值 ， 

。 列 的 平均 数据 大 小 。 
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当然 ， 如 果 设 有 某 些 信息 一 一 例如 我 们 不 知道 一 个 VARCHAR 类 型 的 列 的 平均 文本 长 度 一 一 
连接 器 仍 可 提供 其 他 信息 ，CBO 可 以 利用 这 些 信息 工作 。 


有 了 对 Join 表 中 行 数 的 估计 以 及 可 选 列 的 平均 数据 长 度 信 息 ，CBO 就 拥有 了 足够 的 信 
息 来 决定 前 文中 查询 案例 的 最 优 表 排 序 。 它 可 以 从 最 大 的 表 (lineitem) 开始 ， 随 后 Join 
orders 表 、customer 表 和 nation 表 : 














- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- InnerJoin[l.orderkey = o.orderkey] 

- InnerJoin[o.custkey = c.custkey] 

- InnerJoin[c.nationkey = n.nationkey] 

- TableScan[lineitem] 
- TableScan[orders] 

- TableScan[customer] 

- TableScan[nation] 


这 样 的 计划 相当 不 错 并 很 值得 考虑 ， 因 为 每 次 Join 都 将 具有 更 小 数据 量 的 部 分 放 在 构建 
侧 ， 但 这 不 一 定 就 是 最 优 方案 。 如 果 你 使 用 提供 表 统 计 信息 的 连接 器 并 执行 上 述 查 询 案 
例 ， 则 可 以 用 下 面 的 会 话 属 性 来 启用 CBO。 
































SET SESSION join_reordering_strategy = 'AUTOMATIC'; 





基于 连接 器 提供 的 表 统 计 信息 ，Presto 可 能 会 给 出 一 套 不 同 的 计划 : 


- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- InnerJoin[l.orderkey = o.orderkey] 
- TableScan[ lineitem] 
- InnerJoin[o.custkey = c.custkey] 

- TableScan[orders] 

- InnerJoin[c.nationkey = n.nationkey] 
- TableScan[customer] 
- TableScan[nation] 


这 个 计划 避免 了 将 最 大 的 表 (lineitem) 在 网 络 上 传输 三 次 ， 因 此 被 选中 成 为 最 终 的 方案 。 
在 此 方案 中 ，lineitem 表 只 会 被 分 发 到 各 个 节点 一 次 。 

最 终 的 方案 取决 于 Join 表 的 实际 大 小 和 集群 中 的 节点 数 ， 因 此 当 你 自己 测试 这 条 查询 时 ， 
你 可 能 会 得 到 与 上 述 计划 不 同 的 结果 。 


细心 的 读者 可 能 会 注意 到 Join 顺序 的 选择 只 基于 Join 条 件 、 表 之 间 的 链接 和 表 的 数据 量 
(包括 行 数 和 列 平均 数据 长 度 )。 其 他 的 统计 信息 对 于 优化 更 复杂 的 查询 计划 很 重要 ， 这 些 查 
询 计划 在 表 查 询 和 Join 之 间 包 含 其 他 中 间 操 作 ， 如 过 滤 、 聚 合 和 非 内 部 Join (non-inner join)。 




















4.1 1 .4 过 滤 统 计 信 息 7 


如 前 所 述 ， 了 解 查询 中 涉及 的 表 的 大 小 对 于 在 查询 计划 中 适当 地 重新 排序 Join 表 至 关 重 
要 ,但 仅仅 了 解 表 的 大 小 还 不 够 。 考 虑 之 前 查询 案例 的 一 个 变种 ， 用 户 添 加 了 一 个 类 似 
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Tl.partkey = 638 的 条 件 ， 以 更 深入 地 在 数据 集中 挖掘 某 一 特定 商品 的 订单 信息 。 





SELECT 
n.name AS nation_name, 
avg(extendedprice) as avg_price 
FROM nation n，orders o0o, customer c, lineitem \ 
WHERE n.nationkey = c.nationkey 
AND c.custkey = o.custkey 
AND o.orderkey = L.orderkey 
AND L.partkey = 638 
GROUP BY n.nationkey, n.name; 














在 添加 此 条 件 之 前 ，lineiten 是 最 大 的 表 ， 因 此 查询 优化 的 重心 是 此 表 的 处 理 ， 但 现在 过 
滤 后 的 Lineiten 变 成 Join 中 数据 量 最 小 的 成 员 。 


下 面 的 查询 计划 展示 了 当 过 涯 后 的 Lineitenm 表 足 够 小 时 ，CBO 会 将 其 放置 在 Join 的 构建 
侧 ， 这 样 它 可 以 对 其 他 表 起 到 过 滤 作 用 。 





























- Aggregate[by nationkey...; orders_sum := sum(totalprice)] 
- InnerJoin[l.orderkey = o.orderkey] 
- InnerJoin[o.custkey = c.custkey] 
- TableScan[customer] 
- InnerJoin[c.nationkey = n.nationkey] 
- TableScan[orders] 
- Filter[partkey = 638] 
- TableScan[ lineitem] 
- TableScan[nation] 











CBO 会 使 用 连接 器 提供 的 统计 信息 来 估计 Lineitem 表 过 小 后 的 行 数 ， 如 列 中 的 不 同 值 的 
数量 和 NULL 值 所 占 的 比例 。 对 于 条 件 语 句 partkey = 638 来 说 ，NULL 值 不 满足 这 个 条 件 ， 
因此 优化 器 可 以 知道 去 除 NULL 值 之 后 partkey 列 所 剩 的 行 数 。 更 进一步 ， 如 果 列 中 的 值 大 
致 满足 均匀 分 布 ， 你 就 可 以 推算 出 过 滤 后 的 行 数 : 








过 滤 后 的 行 数 = 总 行 数 * (1 - NULL 值 比例 ) / 不 相同 值 的 数量 
显然 ， 上 述 公式 仅 在 值 均匀 分 布 的 情况 下 有 效 。 然 而 ， 优 化 器 无 须知 道 过 滤 后 所 得 的 确切 
行 数 ， 而 只 需要 一 个 估计 值 。 因 此 ,估计 值 有 一 定 的 偏差 通常 不 是 问题 。 当 然 ， 如 果 某 个 
商品 (比如 Starburst 牌 糖果 ) 的 销量 远大 于 其 他 商品 ， 估 计 结 果 就 会 太 偏离 实际 情况 ， 因 
此 可 能 优化 器 会 选择 一 个 糟糕 的 计划 。 有 目前， 你 只 能 通过 禁用 CBO 来 处 理 这 种 情况 。 
未 来 连接 器 将 可 以 提供 有 关 数 据 分 布 的 信息 ， 从 而 处 理 这 种 场景 。 如 果 有 数据 分 布 的 直方 
图 ，CBO 就 可 以 更 精确 地 估计 过 滤 后 的 行 数 。 


4.11.5 分 区 表 的 统计 信息 
过 滤 表 的 一 种 特殊 情况 值得 单独 讨论 : 分 区 表 (partitioned table) 。 使 用 Hive 连接 器 链接 
的 Hive/HDFS 数据 仓库 可 能 将 数据 组 织 成 分 区 表 (参见 6.4 节 )。 当 在 分 区 键 上 过 滤 数 据 
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时 ， 查 询 执 行 期 间 只 会 读 取 匹 配 的 分 区 。 此 外 ， 由 于 Hive 中 每 个 分 区 单独 保存 表 统 计 信 
息 ， 因 此 CBO 只 使 用 相关 分 区 的 统计 信息 ， 从 而 更 加 精确 。 





当然 ， 任 何 连 接 器 都 可 以 为 过 滤 后 的 关系 表 提 供 这 类 改进 后 的 统计 信息 ， 但 这 里 仅 参 考 
Hive 连接 器 提供 这 类 统计 信息 的 方式 。 


4.11.6 Join 枚 举 
至 此 ， 我 们 讨论 了 CBO 如 何 使 用 数据 统计 信息 生成 执行 查询 的 最 优 计划 。 尤 其 是 ， 
选择 最 优 Join 顺序 ， 该 Join 顺序 会 显著 地 影响 查询 性 能 ， 原 因 如 下 所 示 。 





中 
bb 














Hash Join 的 实现 
Hash Join 的 实现 是 非 对称 的 ， 非 常 重要 的 是 仔细 选择 哪 一 个 输入 用 于 构建 侧 ， 哪 一 个 
用 于 探测 侧 。 


分 布 式 Join 的 类 型 
非常 重要 的 是 仔细 选择 ，Join 的 输入 数据 是 广播 的 还 是 重 分 布 的 。 


4.11.7 “广播 Join 和 分 布 式 Join 


在 4.11.6 节 中 ， 你 了 解 了 Hash Join 的 实现 以 及 选择 构建 人 出 和 探测 侧 的 重要 性 。 由 于 Presto 
是 分 布 式 系统 ， 因 此 Join 可 以 在 一 个 集群 的 工作 节点 上 并 行 执 行 ， 每 个 工作 节点 处 理 Join 
的 一 部 分 任务 。 要 执行 分 布 式 Join， 数 据 可 能 需要 在 网 络 上 分 发 。 根 据 数据 的 形状 ,不同 
的 策略 效率 可 能 差别 很 大 。 


1. 广播 Join 策略 

在 广播 Join 策略 中 ，Join 的 构建 侧 广 播 到 并 行 执 行 Join 的 所 有 工作 节点 上 。 换 名 话说 ， 
每 个 工作 节点 上 的 Join 都 得 到 构建 侧 数据 的 一 个 完整 副本 (如 图 4-12 所 示 )。 只 有 当 探 测 
侧 在 工作 节点 上 无 重复 地 分 布 时 ， 这 种 策略 才 会 提供 正确 的 语义 ， 否 则 会 产生 重复 数据 。 





























工作 节点 1 工作 节点 2 工作 节点 3 


























4-12: 广播 Join 策略 的 可 视 化 








广播 Join 策略 在 构建 侧 数 据 量 很 小 时 非常 有 优势 ， 它 使 得 数据 传输 的 成 本 很 低 。 当 探测 侧 


的 数据 量 非 常 大 时 这 一 策略 也 很 有 优势 ， 











侧 的 数据 。 


2 


. 分 布 式 Join 策略 





者 





是 数据 集中 独一无二 的 一 部 分 ， 而 不 是 数据 的 相同 副本 。 数 据 的 重 分 布 必须 使 用 分 








因为 它 避免 了 像 分 布 式 Join 策略 那样 重 分 布 探测 


在 分 布 式 Join 策略 中 ， 构 建 侧 和 探测 侧 的 输入 数据 都 需要 在 集群 中 重 分 布 ， 从 而 使 工作 市 
点 可 以 并 行 执行 Join。 与 广播 Join 策略 不 同 ， 分 布 式 Join 策略 下 ， 每 个 工作 市 点 接收 到 的 


区 算 





法 ， 从 而 将 匹配 的 Join 键 值 发 送 到 同一 个 节点 。 例 如 ， 在 某 一 特定 节点 上 我 们 有 如 下 Join 
键 的 数据 集 : 


Probe: {4, 5, 6, 7, 9, 10, 11, 14} 
Build: {4, 6, 9, 10, 17} 


考虑 一 个 简单 的 分 区 算法 : 


if joinkey mod 3 == 0 then send to Worker 1 
if joinkey mod 3 == 1 then send to Worker 2 
if joinkey mod 3 == 2 then send to Worker 3 


分 区 后 ， 工 作 节 点 1 上 的 探测 数据 和 构建 数据 如 下 所 示 : 


Probe:{6, 9} 
Build:{6, 9} 





工作 节点 2 上 的 探测 数据 和 构建 数据 如 下 所 示 : 


Probe: {4, 7, 10} 
Build: {4, 10} 





工作 节点 3 上 的 探测 数据 和 构建 数据 如 下 所 示 : 


通过 数据 分 


Probe:{5, 11, 14} 
Build: {17} 








内 存 无 法 保存 构建 侧 的 全 部 数据 。 这 一 策略 的 缺点 是 需要 额外 的 网 络 传输 。 


广播 Join 策略 和 分 布 式 Join 策略 之 间 的 选择 必须 基于 代价 。 两 和 





区 ，CBO 保证 Join 可 以 并 行 处 理 的 同时 无 须 在 节点 之 间 共 享 信息 。 分 布 式 Join 


的 优势 在 于 ，Presto 可 以 计算 这 样 一 个 Join: Join 两 边 的 数据 量 都 非常 大 ， 而 一 台 机 器 的 


策略 各 有 取舍 ， 我 们 必 


须 考 虑 数据 统计 信息 以 获得 最 优 结果 。 此 外 ， 在 Join 重 排序 过 程 中 也 需要 选择 策略 。 根 据 
Join 顺序 和 Filter 所 在 位 置 的 不 同 ， 数 据 的 形状 也 会 改变 。 这 可 能 会 导致 在 一 种 Join 顺 
序 中 分 布 式 Join 两 个 数据 集 更 优 ， 而 在 另 一 种 Join 顺序 中 广播 Join 更 优 ，Join 枚 举 算法 
已 将 此 考虑 在 内 。 














Presto 的 架构 | 


61 


Presto 使 用 的 Join 枚 举 算法 更 加 复杂 ， 不 在 本 书 讨论 范围 内 ，Starburst 的 博 
客 文章 中 对 其 有 详细 介绍 。 这 一 算法 先 将 问题 切 分 成 具有 更 小 分 区 的 子 问 
题 ， 再 递归 地 寻找 正确 的 Join 使 用 ， 最 后 将 分 区 结果 聚合 为 一 个 全 局 结果 。 



































4.12 使 用 表 统 计 信 息 


要 充分 利用 Presto 的 CBO， 数 据 必 须 带 有 统计 信息 。 没 有 统计 信息 ，CBO 能 做 的 非常 有 
限 ， 它 需要 数据 统计 信息 以 估计 行 数 和 不 同 计划 的 代价 。 


因为 Presto 自己 不 存储 数据 ， 所 以 统计 信息 的 提供 依赖 于 连接 器 的 实现 。 在 本 书 编写 的 时 
候 ， 已 经 有 Hive 连接 器 可 以 向 Presto 提供 统计 信息 ， 如 关系 数据 库 连 接 器 在 内 的 其 他 数 
据 源 也 可 以 提供 统计 信息 。 例 如 ，PostgreSQL 就 可 以 收集 和 存储 其 数据 的 统计 信息 ， 我 们 
可 以 扩展 对 应 的 PostgreSQL 连接 器 的 实现 ， 以 支持 将 这 些 信息 返回 给 Presto 的 CBO。 然 
而 ， 撰 写本 书 时 还 没有 这 样 的 开源 连接 器 。 我 们 期 望 ， 经 过 一 段 时 间 的 发 展 ， 会 有 更 多 连 
接 器 支持 统计 信息 。 你 可 以 持续 关注 Presto 的 文档 以 获得 这 方面 的 最 新 信息 。 



























































对 Hive 连接 器 来 说 ， 你 可 以 使 用 以 下 方法 收集 统计 信息 。 


使 用 Presto 的 ANALYZE 命令 来 收集 统计 信息 。 
启用 Presto 在 将 数据 写 入 表 时 收集 统计 信息 的 功能 。 
使 用 Hive 的 ANALYZE 命令 来 收集 统计 信息 。 





重要 的 是 ，Presto 将 统计 信息 存储 在 Hive Metastore 中 ， 这 也 是 Hive 存储 统计 信息 的 地 方 。 
如 果 你 在 Hive 和 Presto 之 间 共 享 相同 的 表 ， 它 们 会 互相 覆盖 彼此 的 统计 信息 。 在 管理 统 
计 信 息 收 集 时 ， 应 该 考虑 这 一 点 。 





4.12.1 Presto 的 ANALYZE 命 令 

Presto 提供 了 ANALYZE 命令 用 于 收集 来 自 某 一 连接 器 (如 Hive 连接 器 ) 的 统计 信息 。 执 
行 时 ，Presto 会 使 用 执行 引擎 计算 列 的 统计 信息 ， 并 将 统计 信息 存放 在 Hive Metastore 中 。 
命令 的 语法 如 下 所 示 : 





ANALYZE table name [ WITH ( property_name = expression [, ...] ) ] 
例如 ， 要 收集 和 存储 位 ghts 表 的 统计 信息 ， 可 以 执行 如 下 命令 : 
ANALYZE hive.ontime.flights; 


在 分 区 的 场景 下 ， 可 以 使 用 WITH 语句 来 分 析 特 定 的 分 








ANALYZE hive.ontime.flights NITH (partitions = ARRAY[ARRAY['01-01-2019']]) 





如 果 你 有 不 止 一 个 分 区 键 ， 就 要 用 租 套 数组 ， 并 将 每 个 键 都 作为 内 层 数组 的 元 素 ， 最 外 层 
的 数组 用 于 指定 你 想 要 分 析 的 多 个 分 区 。 在 Presto 中 指定 分 区 的 能 力 很 有 用 ， 例 如 ， 你 可 
能 有 某 种 类 型 的 ETL 过 程 会 创建 新 的 分 区 。 当 新 的 数据 进入 系统 时 ， 由 于 旧 的 统计 信息 设 
有 禾 盖 新 的 数据 ， 它 就 过 时 了 。 不 过 ， 你 可 以 只 更 新 新 增 分 区 的 统计 信息 ， 而 不 必 重 新 分 
析 所 有 的 数据 。 


4.12.2 在 写 入 存储 时 收集 数据 

对 于 只 通过 Presto 写 入 数据 的 表 ， 可 以 在 执行 写 操作 的 同时 收集 统计 信息 。 例 如 ， 当 你 运 
行 CREATE TABLE AS 或 INSERT SELECT 查询 时 ，Presto 可 以 在 写 入 数据 到 存储 (如 HDFS 或 
S3) 时 收集 统计 信息 ， 然 后 将 其 存储 在 Hive Metastore 中 。 


这 个 功能 的 有 用 之 处 在 于 免除 了 手动 执行 ANALYZE 命令 的 步 又。 这 些 统计 信息 永远 不 会 过 
期 。 然 而 ， 为 了 让 它 可 以 按照 预期 正常 工作 ， 表 中 的 数据 必须 总 是 由 Presto 写 入 。 

这 一 过 程 的 开销 已 进行 了 广泛 的 基准 测试 ， 它 对 性 能 的 影响 可 忽略 不 计 。 要 激活 这 一 特 
性 ， 你 需要 在 使 用 Hive 连接 器 的 catalog 属性 文件 中 添加 以 下 属性 : 


























hive.collect-column-statistics-on-write=true 


4.12.3 ”Hive 的 ANALYZE 命 令 


在 Presto 之 外 ， 你 也 可 以 使 用 Hive 的 ANALYZE 命令 为 Presto 收集 统计 信息 。 此 时 ， 统 计 信 
息 的 计算 由 Hive 而 不 是 Presto 的 执行 引擎 执行 ， 因 此 计算 结果 可 能 不 同 。 此 外 ， 相 比 自 
己 生 成 的 统计 信息 ，Presto 在 使 用 Hive 生成 的 统计 信息 时 总 有 产生 不 同行 为 的 风险 。 通 稼 
推荐 使 用 Presto 自己 收集 统计 信息 ， 但 有 时 可 能 需要 使 用 Hve， 比 如 数据 由 一 个 更 复杂 的 
流水 线 生 成 并 与 其 他 可 能 使 用 到 统计 信息 的 工具 共享 。 在 Hive 中 收集 统计 信息 ， 可 以 执 
行 以 下 命令 : 











hive> ANALYZE TABLE hive.ontime.flights COMPUTE STATISTICS ; 
hive> ANALYZE TABLE hive.ontime.flights COMPUTE STATISTICS FOR COLUNMNS ; 


有 关 Hive 的 ANALYZE 命令 的 完整 信息 ， 可 以 参考 Hive 的 官方 文档 。 





4.12.4 显示 表 统 计 信息 
一 旦 你 收集 了 统计 信息 ， 就 常常 会 想 要 查看 它们 。 这 样 可 以 确认 统计 信息 确实 收集 好 了 ， 
也 可 以 在 调试 性 能 问题 时 查看 使 用 了 哪些 统计 信息 。 


Presto 提供 了 一 个 SHOW STATS 命令 : 


SHOW STATS FOR hive.ontime.flights; 
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此 外 ， 如 果 你 想 要 查看 一 个 数据 子 集 的 统计 信息 ， 就 可 以 给 出 过 小 条 件 ， 例 如 ，; 


SHOW STATS FOR (SELECT * FROM hive.ontime.flights WHERE year > 2010); 


4.13 ”小结 

你 现在 了 解 了 Presto 的 架构 ， 它 使 用 一 个 协调 器 来 接收 用 户 请 求 ， 之 后 调用 工作 节点 来 组 
装 各 种 数据 。 

每 个 查询 都 被 翻译 成 分 布 式 查询 计划 ， 查 询 计划 由 任务 组 成 的 多 个 Stage 构成 。 数 据 以 切 
片 形 式 由 连接 器 返回 ， 并 在 多 个 Stage 中 执行 ， 直 到 最 终结 果 可 用 并 由 协调 器 提供 给 用 户 。 























如 果 你 对 Presto 架构 的 更 多 细节 感 兴趣 ， 可 以 研读 来 自 Presto 创造 者 的 论文 “Presto 一 SQL 
on Everything”， 由 ICDE (IEEE International Conference on Data Engineering) 发 表 。 论 文 
也 可 以 在 官方 网 站 上 找到 (参见 1.4.1 节 )。 

第 5 章 会 讲解 更 多 有 关 Presto 集群 部 署 的 知识 ， 第 6 章 和 第 7 章 会 介绍 使 用 不 同 连 接 器 为 
Presto 提供 更 多 数据 源 的 信息 ， 第 8 章 会 阐释 如 何 编写 强大 的 查询 。 
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你 已 经 在 第 2 章 中 了 解 了 使 用 targz 包 安 装 Presto 的 方法 ， 并 在 第 4 章 中 了 解 了 Presto 的 
架构 ， 现 在 可 以 学 习 安 装 Presto 集群 的 细节 了 。 有 了 这 些 知识 ， 你 将 能 够 在 生产 环境 中 部 
署 具有 一 个 协调 器 和 多 个 工作 节点 的 Presto 集群 。 


于 -二 
5.1 配置 细节 
Presto 的 配置 由 下 文 所 介绍 的 多 个 文件 所 管理 ， 它 们 默认 存放 在 安装 目录 下 的 etc 目录 中 。 
配置 文件 目录 以 及 各 个 配置 文件 的 默认 位 置 ， 都 可 以 使 用 启动 器 脚本 的 参数 覆盖 (参见 5.6 节 )。 


Lu 
5.2 ”服务 端 配置 
Presto 服务 端的 配置 由 etc/config.properties 文件 提供 。Presto 服务 端 可 以 作为 协调 器 或 工作 
节点 ， 也 可 以 兼 具 两 种 角色 。 将 服务 端 程序 设 定 为 只 执行 协调 器 的 工作 ， 并 添加 一 系列 其 
他 服务 端 程序 作为 专用 工作 节点 ， 这 种 配置 方式 可 以 提供 最 佳 的 性 能 并 创建 Presto 集群 。 
上 述 配置 文件 的 内 容 非 常 重要 ， 特 别 是 因为 它们 决定 了 服务 端 程序 是 作为 工作 节点 还 是 协 
调 器 ， 而 这 会 影响 资源 的 使 用 和 配置 。 





















































Presto 集群 中 的 所 有 工作 布点 应 该 具有 完全 相同 的 设置 。 
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接 下 来 介绍 Presto 服务 端的 一 些 基 础 设置 属性 。 在 之 后 的 章节 中 ， 当 讨论 认证 、 授 权 和 资 
源 组 等 特性 时 ， 我 们 将 介绍 额外 的 可 选 属性 。 








coordinator=true|false 
设置 Presto 实例 是 否 作为 协调 器 运行 ， 这 样 可 以 接受 来 自 客户 端的 查询 请 求 并 管理 查询 
执行 。 默认 值 为 true， 值 设 为 false 会 使 服务 端 程序 作为 工作 布点 运行 。 


























node-scheduler.include-coordinator=true|false 
设置 是 否 将 调度 工作 运行 于 协调 器 上 ， 黑 认为 true。 对 于 更 大 的 集群 ， 我 们 建议 将 此 
属性 设 为 false。 在 协调 器 上 执行 的 处 理工 作 会 影响 查询 性 能 ， 因 为 服务 端的 资源 可 能 
被 其 占用 而 无 法 进行 服务 调度 、 管 理 和 监控 查询 执行 等 重要 工作 。 


























http-server.http.port=8080 和 http-server.https.port=8443 
间 定 服务 端 使 用 的 HTTP/HTTPS 连接 端口 。Presto 使 用 HTTP 进行 内 部 和 外 部 通信 。 


query.max-memory=5GB 


查询 可 以 使 用 的 分 布 式 内 存 的 最 大 值 ， 第 12 章 会 详细 介绍 。 


query.max-memory-per-node=1GB 


查询 在 单个 机 器 上 可 以 使 用 的 用 户 内 存 的 最 大 值 ， 第 12 章 会 详细 介绍 。 





query.max-total-memory-per-node=2GB 
查询 在 任何 一 台 服 务 器 上 可 以 使 用 的 用 户 内 存 和 系统 内 存 加 起 来 的 最 大 值 。 系 统 内 存 是 
在 执行 过 程 中 由 读 取 器 、 写 入 器 和 网 络 缓冲 等 组 件 所 使 用 的 内 存 ， 第 12 章 会 详细 介绍 。 





discovery-server .enabled=true 
Presto 使 用 发 现 服务 来 找到 集群 中 的 所 有 节点 。 每 个 Presto 实例 在 启动 时 都 会 注册 到 发 
现 服务 。 为 了 简化 部 署 和 避免 运行 额外 的 服务 ，Presto 协调 器 可 以 运行 内 置 版 本 的 发 现 
服务 。 它 与 Presto 共享 HTTP 服务 器 ， 因 此 使 用 相同 的 端口 。 通 常 此 属性 在 协调 器 上 设 
置 为 true。 在 所 有 的 工作 节点 上 都 必须 删除 此 属性 ， 从 而 禁用 它 。 








discovery.uri=http://localhost:8080 
发 现 服务 的 URI。 使 用 Presto 协调 器 内 置 的 发 现 服 务 时 ， 此 属性 的 值 应 为 Presto 协调 器 
的 URI 且 应 指定 正确 的 端口 。 这 个 URI 不 能 以 斜 杠 结尾 。 


5.3 日 志 


可 选 的 Presto 日 志 配 置 文件 etc/log.properties 可 以 让 你 对 命名 Logger 层级 设置 最 低 日 志 级 
别 。 每 个 Logger 都 有 名 称 ， 通 常 是 使 用 这 个 Logger 的 Java 类 的 完全 限定 名 。Logger 使 用 
Java 类 的 层级 。 你 可 以 在 源 代码 中 看 到 Presto 中 所 有 组 件 使 用 的 包 ， 参 见 1.4.4 节 。 





例如 以 下 日 志 级 别 文件 : 


io.prestosql=INFO 

io.prestosql .plugin.postgresql=DEBUG 
第 一 行将 io.prestosql 包 内 的 所 有 类 (包括 租 套 包 ， 如 io.prestosqL.spi.connector 和 
io.prestosql.plugin.hive) 的 最 低 日 志 级 别 设置 为 INF0。 由 于 默认 的 日 志 级 别 就 是 INF0， 
因此 这 个 例子 的 第 一 行 设 定 不 会 改变 任何 包 的 日 志 级 别 。 将 默认 级 别 的 设 定 放 在 文件 中 只 
是 为 了 让 配置 更 加 明显 。 然 而 ， 第 二 行 设 定 将 PostgreSQL 连接 器 的 日 志 配 置 履 盖 为 DEBUG 
级 别 。 





一 共有 四 个 日 志 级 别 ， 按 照 详 细 程 度 从 高 到 低 排列 依次 是 DEBUG、INFO、WARN 和 ERROR。 本 
书 在 讨论 Presto 故障 排除 等 主题 时 ， 可 能 会 参考 日 志 设 置 。 








在 设置 日 志 级 别 时 ， 使 用 DEBUG 级 别 可 能 会 输出 特别 多 的 内 容 。 请 只 在 实际 
需要 排除 故障 的 特定 低级 别 包 上 设置 DEBUG 级 别 ， 以 免 产 生 大 量 的 日 志 信 
息 ， 从 而 对 系统 性 能 产生 负面 影响 。 

















启动 Presto 后 ， 除 非 你 在 etc/node.properties 文件 中 指定 了 其 他 位 置 ， 否 则 将 在 安装 目录 下 
的 var/log 目录 中 看 到 多 种 日 志文 件 。 


launcher.log 
此 文件 由 启动 器 (参见 5.6 节 ) 创建 ， 它 与 服务 器 的 标准 输出 (stdout) 流 和 标准 错误 
(stderr) 流 相连 ， 包 含 服务 器 初始 化 时 产生 的 一 些 日 志 信息 ， 以 及 JVM 产生 的 错误 和 
诊断 信息 。 





server.log 
这 是 Presto 主要 的 日 志文 件 。 如 果 服 务 器 初始 化 失败 ， 这 个 文件 通常 会 包含 相关 的 信 
息 。 此 外 ， 它 还 包括 有 关 应 用 程序 实际 运行 和 数据 源 连接 等 的 大 部 分 信息 。 




















http-request.log 
HTTP 请 求 日 志 ， 包 含 服务 器 接收 到 的 每 一 个 HTTP 请 求 。 这 既 包 括 对 Web UI 和 
Presto CLI 的 使 用 请 求 ， 也 包括 第 3 章 介 绍 的 JDBC 或 ODBC 连接 请 求 ， 因 为 所 有 这 些 
操作 都 使 用 HTTP 连接 。 这 个 文件 也 包括 认证 和 授权 日 志 。 





所 有 的 日 志文 件 都 会 自动 滚动 ， 你 可 以 在 文件 大 小 和 是 否 压缩 等 细节 上 进行 更 详细 的 配置 。 


5.4 ”节点 配置 


节点 配置 文件 etc/node.properties 包含 了 针对 某 一 服务 器 上 安装 的 单个 Presto 实例 (Presto 
集群 中 的 一 个 节点 ) 的 配置 。 
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而 是 一 个 简单 的 示例 文件 : 


才 











node.environment=production 
node.id=ffffffff-ffff-ffff-ffff-ffffffffffff 
node.data-dir=/var/presto/data 


支持 的 Presto 配置 属性 如 下 所 示 。 





node.environment=demo 
运行 环境 的 名 称 ( 必 填 项 )。Presto 集群 里 的 所 有 节点 必须 拥有 同一 个 环境 名 ， 该 名 称 
显示 在 Presto Web UI 的 标题 部 分 。 





node.id=some-random-unique-string 

当前 Presto 安装 实例 的 唯一 识别 符 (可 选项 )。 每 个 节点 都 必须 拥有 不 同 的 唯一 标识 。 
如 果 想 要 在 Presto 市 点 重启 和 升级 时 保持 一 致 的 标识 ， 则 需要 指定 该 属性 。 如 果 不 指定 
此 属性 ， 每 次 重启 时 都 会 生成 一 个 新 的 随机 标识 。 






































node.data-dir=/var/presto/data 
Presto 存储 日 志文 件 和 其 他 数据 的 文件 系统 目录 (可 选项 )， 默 认为 安装 目录 下 的 var 文 
件 夹 。 


5.5 JVM 配 置 


JVM 配置 文件 etc/jvm.config 包含 用 于 启动 Presto 所 在 JVM 的 命令 行 选项 列表 。 


画 
针 
[Ey 
my 


这 个 文件 包含 一 系列 的 选项 ， 每 个 选项 占据 一 行 。 这 些 选 项 不 是 由 shell 解析 的 ， 
空格 和 其 他 特殊 字符 的 选项 无 须 用 引号 括 起 来 。 








下 面 的 内 容 是 创建 etc/jvm.config 的 良好 起 点 : 











-Server 
-mx16G 

-XX:+UseG1GC 
-XX:GlHeapRegionSize=32M 
-XX:+UseGCOverheadLimit 
-XX:+ExplicitGCInvokesConcurrent 
-XX:+HeapDumpOnOutOfMemoryError 
-XX:+EXitOnOutOfMemoryError 
-Djdk.attach.allowAttachSelf=true 


因为 0utofMemoryError 通常 使 得 JVM 进入 不 一 致 的 状态 ， 所 以 此 时 我 们 会 进行 堆 转 储 
(heap dump)， 以 便 调试 并 强制 终止 进程 。 

文件 中 的 -mx 选项 是 一 个 重要 属性 。 它 设 定 了 JVM 的 最 大 堆 空间 ， 这 决定 了 Presto 进程 
能 有 多 少 可 用 内 存 。 
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为 了 使 用 Presto， 人 允许 JDK/JVM 吸附 (attach) 到 自身 的 选项 在 升级 到 Java 11 后 是 必需 的 。 
关于 内 存 和 其 他 JVM 设 定 的 更 多 信息 ， 参 见 第 12 章 。 


5.6 ”启动 器 


如 第 2 章 所 述 ，Presto 在 bin 目录 下 提供 了 用 于 启动 和 管理 Presto 的 脚本 。 这 些 脚本 需要 
Python 才能 运行 。 





run 命令 可 用 于 在 前 台 启 动 Presto 进程 。 
在 生产 环境 ， 你 通常 将 Presto 作为 一 个 后 台 守 护 进 程 启动 : 








$ bin/Launcher start 
Started as 48322 


上 述 例 子 中 的 数值 48322 是 进程 的 ID (PID)， 每 次 启动 时 都 会 改变 。 





你 可 以 使 用 stop 命令 终止 一 个 运行 中 的 Presto 服务 器 ， 这 会 使 它 优雅 地 关闭 : 


$ bin/Launcher stop 
Stopped 48322 


| 


一 个 Presto 服务 器 进程 被 锁 死 或 遇 到 其 他 错误 时 ， 可 以 使 用 kill 命令 强制 终 





$ bin/Launcher kill 
Killed 48322 


你 可 以 使 用 status 命令 获取 Presto 的 运行 状态 和 PID: 


$ bin/Launcher status 
Running as 48322 


如 果 Presto 进程 没 在 运行 ， 则 status 命令 返回 以 下 信息 





$ bin/Launcher status 
Not running 








除了 上 述 命令 ， 启 动 器 脚本 还 支持 许多 其 他 选项 ， 它 们 可 用 于 自 定义 配置 文件 的 位 置 和 其 
他 参数 。 可 以 使 用 - -hetp 选项 来 显示 完整 的 信息 


$ bin/Launcher - -heLp 
Usage: launcher [options] command 


Commands: run, start, stop, restart, kill, status 


Options: 
-h, --help show this help message and exit 
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-V，--Vverbose Run verbosely 


--etc-dir=DIR Defaults to INSTALL_PATH/etc 

--launcher -config=FILE Defaults to INSTALL_PATH/bin/Launcher .properties 
--node-config=FILE Defaults to ETC_DIR/node.properties 
--jvm-config=FILE Defaults to ETC_DIR/jvm.config 

--config=FILE Defaults to ETC_DIR/config.properties 
--log-levels-file=FILE Defaults to ETC_DIR/Log.properties 
--data-dir=DIR Defaults to INSTALL_PATH 

--pid-file=FILE Defaults to DATA_DIR/var/run/launcher .pid 


--launcher-log-file=FILE Defaults to DATA_DIR/var/log/launcher.log (only in 
daemon mode) 

--server-log-file=FILE Defaults to DATA_DIR/var/Log/server.Log (only in 
daemon mode) 

-D NAME=VALUE Set a Java system property 


其 他 的 安装 方法 使 用 这 些 选项 来 修改 路 径 。 例 如 ，5.8 节 中 讨论 的 RPM 包 可 以 调整 路 径 ， 
从 而 更 好 地 匹配 Linux 文件 系统 结构 的 标准 和 惯例 。 你 可 以 使 用 这 些 选项 满足 类 似 的 需求 ， 
如 服从 企业 特定 的 标准 、 为 存储 使 用 特定 的 挂 载 点 ， 或 仅 使 用 Presto 安装 目录 外 的 路 径 以 
便于 升级 。 
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5.7 ”集群 安装 
第 2 章 讨 论 了 如 何在 单机 上 安装 Presto， 第 4 章 介 绍 了 Presto 是 如 何 设计 用 于 在 分 布 式 环 
境 下 使 用 的 。 
除了 用 于 演示 目的 ， 在 任何 真实 使 用 场景 下 你 都 需要 将 Presto 安装 到 一 组 机 器 上 。 幸 运 的 


是 ,集群 上 的 安装 和 配置 与 单机 上 的 安装 和 配置 十 分 相似 。 你 需要 将 Presto 安装 到 每 一 台 
机 器 上 ， 可 以 手动 安装 ， 也 可 以 使 用 类 似 Ansible 这 样 的 自动 化 部 署 系统 。 











目前 ， 你 已 经 将 单个 Presto 服务 器 进程 部 署 为 协调 器 兼 工作 节点 的 角色 。 在 集群 安装 中 ， 
你 需要 安装 和 配置 一 个 协调 器 和 多 个 工作 市 点 。 





仅 需 将 下 载 的 tar.gz 归档 文件 复制 到 集群 中 的 所 有 机 器 上 并 解压 它 。 








与 之 前 一 样 ， 你 需要 创建 etc 目录 并 添加 相关 的 配置 文件 。 你 可 以 在 本 书 仓库 (参见 1.4.6 
节 ) 的 cluster-installation 目录 下 找到 一 系列 协调 器 和 工作 节点 的 示例 配置 文件 。 这 些 配置 
文件 需要 存在 于 集群 的 每 一 台 机 器 上 。 




















这 些 配置 与 协调 器 和 工作 节点 的 简单 安装 模式 下 的 配置 基本 相同 ， 但 有 以 下 重要 区 别 。 


。 config.properties 文件 中 的 coordinator 属性 在 协调 器 上 设置 为 true， 在 工作 节点 上 设置 
为 faLse。 

。 设置 了 node-scheduler 属性 以 排除 协调 器 。 

在 所 有 的 工作 节点 和 协调 器 上 ，discovery-uri 属性 都 设置 为 指向 协调 器 的 IP 地 址 或 主 

机 名 。 














。 通过 删除 属性 禁用 了 工作 节点 上 的 发 现 服务 。 
下 面 是 适用 于 协调 器 的 主 配置 文件 etc/config.properties ， 


coordinator=true 

node-scheduler .include-coordinator=false 
http-server.http.port=8080 

query.max-memory=5GB 

query.max-memory-per-node=1GB 
query.max-total-memory-per-node=2GB 

discovery-server .enabled=true 
discovery.uri=http://<coordinator-ip-or-host-name>:8080 


注意 适用 于 工作 节点 的 主 配置 文件 etc/config.properties 与 上 述 配 置 的 差别 : 


coordinator=false 

http-server.http.port=8080 

query.max-memory=5GB 

query.max-memory-per-node=1GB 
query.max-total-memory-per-node=2GB 
discovery.uri=http://<coordinator-ip-or-host-name>:8080 


将 Presto 安装 和 配置 到 一 组 市 点 上 之 后 ， 你 就 可 以 使 用 启动 器 在 每 一 个 节点 上 启动 Presto 
了 。 通 常 最 好 先 启动 Presto 协调 器 ， 再 启动 工作 节点 。 


$ bin/Launcher start 


与 之 前 一 样 ， 你 可 以 使 用 Presto CLI 来 连接 到 Presto 服务 器 。 在 分 布 式 安装 环境 下 ， 你 需 
要 使 用 --server 选项 指定 Presto 协调 器 的 地 址 。 如 果 你 直接 在 Presto 协调 器 所 在 的 节点 上 
执行 Presto CLI， 因 为 这 个 选项 的 默认 值 是 localhost8080， 所 以 可 以 省 略 它 。 























$ presto --server <coordinator-ip-or-host-name>:8080 


你 现在 可 以 检查 Presto 集群 是 否 正确 运行 了 。nodes 系统 表 包 含 集群 中 所 有 的 活动 节点 ， 
你 可 以 使 用 SQL 查询 来 查看 它们 : 


presto> SELECT * FROM system.runtime.nodes; 


node id | http_uri | node version | coordinator | state 
--------- 4 
c00367d | http://<http_uri>:8080 | 330 | true | active 
9408e07 | http://<http_uri>:8080 | 330 | false | active 
90dfc04 | http://<http_uri>:8080 | 330 | false | active 
(3 rows) 


返回 的 列表 包含 了 协调 器 和 所 有 连接 到 集群 的 工作 节点 。 协 调 右 和 工作 节点 使 用 REST API 
在 人 linfo 路 径 下 暴露 其 状态 和 版 本 信息 ， 例 如 http://worker-or-coordinator-host-name/v1/info。 

















你 可 以 在 Presto Web UI 上 确认 活动 工作 节点 的 数量 。 
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5.8 使 用 RPM 安装 


你 可 以 在 许多 Linux 发 行 版 上 使 用 RPM 包 管 理 器 安装 Presto， 如 CentOS、Red Hat Enterprise 


Linux 等 。 


RPM 包 托 管 在 Maven 中 央 仓 库 上 , 地 址 是 https:/repo.maven.apache.org/maven2/io/prestosql/ 
presto-server-rpm。 找 到 所 需 版 本 的 RPM 文件 并 下 载 它 。 








可 以 使 用 wget 命令 下 载 对 应 归档 文件 ， 例 如 ， 对 于 版 本 330: 





$ wget https://repo.maven.apache.org/maven2/ \ 
io/prestosql/presto-server-rpm/330/presto-server-rpm-330.rpm 





在 管理 员 权限 下 ， 你 可 以 使 用 此 归档 文件 以 单 节 点 模式 安装 Presto: 
$ sudo rpm -i presto-server-rpm-*.rpm 


RPM 安装 可 以 创建 基础 的 Presto 配置 文件 和 一 个 服务 控制 脚本 来 控制 服务 器 。 此 脚本 配置 
了 chkconfig， 因 此 会 在 操作 系统 启动 时 自动 启动 。 在 使 用 RPM 安装 了 Presto 之 后 ， 你 可 


以 使 用 service 命令 管理 Presto 服务 器 : 














service presto [start|stop|restart|status] 


5.8.1 安装 目录 结构 

使 用 基于 RPM 的 安装 方法 时 ，Presto 可 以 安装 到 与 Linux 文件 系统 结构 标准 更 一 致 的 目录 
结构 中 。 这 意味 着 并 非 所 有 文件 都 包含 在 之 前 我 们 所 看 到 的 单一 Presto 安装 目录 下 。 对 应 
的 服务 已 经 配置 过， 以 便 将 正确 的 路 径 通过 启动 器 脚本 传递 给 Presto。 


/usr/lib/presto/ 
此 目录 包含 了 运行 Presto 所 需 的 各 种 库 ， 揪 件 放置 在 其 中 的 plugin 目录 下 。 





/etc/presto 
此 目录 包含 了 运行 Presto 所 需 的 通用 配置 文件 ， 如 node.properties、jvm.config 和 config. 
properties 等 。catalog 配置 文件 位 于 其 中 的 catalog 目录 下 。 





/etc/presto/env.sh 
此 文件 设置 了 使 用 的 Java 安装 路 径 。 


/Var/log/presto 
此 目录 包含 日 志文 件 。 


/var/lib/presto/data 
这 是 数据 目录 。 
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/etc/rc.d/init.d/presto 
这 个 目录 包含 了 控制 服务 器 进程 的 服务 脚本 。 
由 于 我 们 的 目录 结构 与 Presto 的 默认 设置 不 同 ，node.properties 文件 需要 下 列 两 个 额外 的 属性 : 


catalog.config-dir=/etc/presto/catalog 
plugin.dir=/usr/lib/presto/plugin 


5.8.2 配置 

与 tar.gz 归档 文件 一 样 ，RPM 包 安 装 Presto 时 充当 了 便于 使 用 的 协调 器 和 工作 节点 。 要 创 
建 一 个 可 以 工作 的 集群 ， 你 可 以 手动 在 集群 中 节点 上 修改 配置 文件 ， 使 用 presto-admin 工 
具 ， 或 使 用 通用 配置 管理 和 提供 工具 ， 如 Ansible。 





5.8.3 郝 载 Presto 
你 可 以 像 移 除 其 他 任何 RPM 包 一 样 外 载 使 用 RPM 安装 的 Presto: 





$ rpm -e presto 
印 载 Presto 时 ， 除 日 志 目 录 /var/log/presto 外 的 所 有 文件 和 配置 都 会 被 删除 。 如 果 你 想 要 保 
留 它 们 ， 可 以 创建 一 个 备份 副本 。 
-一 mm 习 士 
5.9 在 云 上 安装 


Presto 的 典型 安装 会 运行 一 个 协调 器 和 多 个 工作 节点 。 随 着 时 间 的 推移 ， 集 群 中 工作 节点 
的 数量 和 集群 的 数量 可 以 随 着 用 户 的 需求 而 改变 。 














所 连接 数据 源 的 数量 和 类 型 及 其 位 置 ， 对 于 选择 在 哪里 安装 和 运行 Presto 集群 也 有 重大 影 
响 。 通 常 来 说 ，Presto 集群 与 数据 源 之 间 最 好 能 有 一 个 高 带宽 、 低 时 延 的 网 络 连 接 。 








第 2 章 所 述 的 运行 Presto 的 简单 需求 ， 可 以 让 你 在 多 种 场景 下 运行 Presto。 你 可 以 在 不 同 
类 型 的 机 器 上 运行 它 ， 如 物理 机 、 虚 拟 机 和 Docker 容器 。 


Presto 可 用 于 私有 云 部 署 ， 并 为 许多 公有 云 供 应 商 所 用 ， 如 Amazon Web Service (AWS)、 
Google Cloud Platform (GCP)、Microsoft Azure 等 。 





容器 技术 允许 你 将 Presto 运行 在 Kubernetes (k8s) 集群 上 ， 如 Amazon Elastic Kubernetes 
Service (Amazon EKS)、 Microsoft Azure Kubernetes Service (AKS)、 Google Kubernetes 
Engine (GKE)、Red Hat Open Shift 以 及 其 他 任何 Kubernetes 部 署 。 





这 类 云 部 署 方案 的 一 大 优势 是 提供 了 部 署 高 弹性 集群 的 可 能 性 ， 集 群 中 的 工作 节点 可 以 根 
据 需 要 创建 和 销毁 。 许 多 用 户 创建 了 应 用 于 这 类 使 用 场景 的 工具 ， 包 括 那 些 将 Presto 内 髓 
到 产品 中 的 云 供应 商 以 及 其 他 提供 Presto 工具 和 支持 的 厂商 。 
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Presto 项 目 本 身 并 没有 提供 一 套 完整 的 、 使 Presto 集群 便于 使 用 的 资源 和 
工具 链 。 使 用 者 通常 要 创建 他 们 自己 的 包 、 配 置 管理 工具 、 容 器 镜像 、k8s 
operator 或 者 其 他 必要 的 组 件 ， 他 们 也 可 能 使 用 类 似 Concord 或 者 Terraform 
这 样 的 工具 来 创建 和 管理 集群 。 或 者 ， 你 也 可 以 选择 依赖 类 似 Starburst 这 样 
的 公司 所 提供 的 服务 和 支持 。 














5.10 集群 规模 的 考量 

部 署 Presto 的 一 个 重要 方面 是 集群 的 规模 。 长 期 来 看 ， 你 甚至 可 能 会 运行 多 个 针对 不 同 使 
用 场景 的 集群 。 调 整 Presto 集群 的 规模 是 一 项 复杂 的 任务 ， 并 遵循 与 其 他 应 用 程序 一 样 的 
模式 和 步骤 。 





.基于 粗略 估计 和 可 用 的 基础 设施 决定 初始 规模 。 
， 确 保 集 群 的 工具 和 基础 设施 支持 集群 伸缩 。 

.启动 集群 并 逐步 增加 使 用 量 。 
. 监控 使 用 率 和 性 能 。 

.根据 观察 到 的 结果 调整 集群 的 规模 和 配置 。 


由 监控 、 调 整 和 继续 使 用 构成 的 反馈 闭环 可 以 让 你 更 好 地 了 解 Presto 部 署 的 行为 。 
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许多 因素 会 影响 集群 性 能 ， 不 同 Presto 部 署 会 受 这 些 因素 的 不 同 组 合 的 影响 。 





。 每 个 节点 的 资源 ， 如 CPU 和 内 存 。 
。 集群 内 部 以 及 集群 到 数据 源 和 存储 的 网 络 性 能 。 
。 连接 的 数据 源 的 数量 和 特性 。 
。 在 数据 源 上 执行 的 查询 及 其 范围 、 复 杂 度 、 数 量 和 结果 数据 量 。 
。 数据 源 存储 的 读 写 性 能 。 
活跃 用 户 及 其 使 用 模式 。 








当 部 署 好 初始 集群 后 ， 要 确保 充分 利用 Presto Web UI 进行 监控 。 第 12 章 提供 了 更 多 信息 。 


5.11 小结 


如 你 所 见 ， 安 装 和 运行 Presto 集群 只 需 少量 的 配置 文件 和 属性 即 可 。 基 于 实际 的 基础 设施 
和 管理 系统 ， 你 可 以 部 署 一 个 或 多 个 强大 的 Presto 集群 。 可 以 在 第 13 章 查阅 真实 世界 的 
使 用 案例 。 


当然 ， 你 还 没 了 解 配置 Presto 的 一 个 主要 部 分 一 一 连接 到 外 部 数据 源 ， 以 便 用 户 可 以 使 用 


Presto 和 SQL 查询 它们 。 在 第 6 章 和 第 7 章 中 ， 你 将 学 习 多 种 数据 产 和 相应 的 连接 器 ， 以 
及 使 用 连接 器 访问 特定 数据 源 的 catalog 的 配置 。 
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第 6 章 


连接 磊 





在 第 3 章 中 ， 你 配置 了 一 个 catalog， 使 用 连接 器 来 访问 Presto 中 的 数据 源 (尤其 是 TPC-H 
基准 测试 数据 ) ， 然 后 学 习 了 一 些 关 于 如 何 使 用 SQL 查询 这 些 数据 的 知识 。 





catalog 是 使 用 Presto 的 一 个 重要 方面 。 它 们 定义 了 与 底层 数据 源 和 存储 系统 的 连接 ， 并 使 
用 了 连接 器 、schema 和 表 等 概念 。 第 4 章 介 绍 了 这 些 基本 概念 ， 第 8 章 详细 讨论 了 它们 与 
SQL 的 使 用 。 


连接 器 将 底层 数据 源 〈 如 RDBMS、 对 象 存 储 或 键 值 存储 ) 的 查询 和 存储 概念 翻译 成 SQL 
和 Presto 中 的 表 、 列 、 行 和 数据 类 型 的 概念 。 它 们 可 以 是 简单 的 SQL 到 SQL 之 间 的 转换 和 
映射 ， 也 可 以 是 更 复杂 的 SQL 到 对 象 存储 或 NoSQL 系统 的 转换 ， 还 可 以 是 由 用 户 定义 的 。 


可 以 像 看 待 数 据 库 的 驱动 程序 一 样 看 待 连 接 器 。 它 将 用 户 的 输入 转化 为 底层 数据 库 可 以 执 
行 的 操作 。 每 个 连接 器 都 实现 了 Presto 服务 提供 者 接口 (service provider interface，SPI)。 
这 让 你 能 够 用 同一 套 SQL 工具 操作 任意 连接 器 暴露 的 底层 数据 源 ， 从 而 使 Presto 成 为 一 个 
SQL-on-Anything 的 系统 。 














查询 性 能 也 受到 连接 器 实现 的 影响 。 最 基本 的 连接 器 与 数据 源 之 间 建 立 单条 连接 ， 并 将 数 
据 提 供给 Presto。 然 而 ， 更 高 级 的 连接 器 可 以 将 一 条 语句 分 解 成 多 个 连接 ， 并 行 执行 操作 ， 
从 而 实现 更 好 的 性 能 。 连 接 器 的 另 一 个 高 级 功能 是 提供 表 统 计 信息 ， 它 们 可 以 被 基于 代价 
的 优化 器 用 来 创建 高 性 能 的 查询 计划 。 然 而 ， 这 样 的 连接 器 实现 起 来 会 更 加 复杂 。 


Presto 提供 了 众多 的 连接 器 。 


用 于 PostgreSQL 或 MySQL 等 RDBMS 的 连接 器 ， 参 见 6.7 节 。 
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适用 于 使 用 Hadoop 分 布 式 文件 系统 (HDFS) 和 类 似 对 象 存储 系统 查询 系统 的 Hive 连 
接 器 ， 参 见 6.4 市 。 

与 非 关 系数 据 源 的 众多 连接 器 ， 参 见 6.5 节 。 

用 于 TPC 基准 数据 的 tpch 和 tpcds 连接 器 ， 参 见 6.3 节 。 

用 于 Java 管理 扩展 的 连接 器 ( 即 JMX)， 参 见 6.6 节 。 


在 本 章 中 ， 你 将 了 解 到 更 多 关于 Presto 项 目 自 带 的 这 些 连 接 器 的 信息 。 目 前 ，Presto 中 已 
经 有 二 十 多 个 连接 器 ， 而 且 Presto 团队 和 用 户 社 区 还 在 创造 更 多 的 连接 器 。 商 业 的 、 专 有 
的 连接 器 也 可 用 于 进一步 扩展 Presto 的 能 力 边界 和 性 能 。 最 后 ， 如 果 你 有 一 个 自 定 义 的 数 
据 源 ， 或 者 一 个 没有 连接 器 的 数据 源 ， 你 可 以 通过 实现 必要 的 SPI 调用 来 实现 你 自己 的 连 
接 器 ， 然 后 将 它 放 到 Presto 中 的 插件 目录 里 中 即 可 。 









































catalog 和 连接 器 使 用 的 一 个 重要 方面 是 ， 所 有 这 些 可 同时 用 于 Presto 中 的 SQL 语句 和 查 
询 。 这 意味 着 你 可 以 创建 跨 数据 源 的 查询 。 例 如 ， 你 可 以 将 来 自 关系 数据 库 的 数据 与 存储 
在 对 象 存储 后 台 的 文件 中 的 数据 结合 起 来 。 这 些 联 邦 查询 将 在 7.6 节 中 详细 讨论 。 


6.1 配置 


如 2.3 节 所 述 ， 你 想 访 问 数据 源 时 需要 创建 一 个 catalog 文件 来 配置 catalog。 在 编写 查询 
时 ， 文 件 的 名 称 决 定 了 catalog 的 名 称 。 


必 填 属性 connector .name 表示 catalog 中 使 用 的 是 哪个 连接 器 。 同 一 个 连接 器 可 以 在 不 同 
的 catalog 中 多 次 使 用 。 例 如 ， 使 用 相同 技术 (如 PostgreSQL) 访问 包含 不 同 数据 库 的 不 
同 RDBMS 服务 器 实例 。 再 比如 有 两 个 Hive 和 集群， 你 可 以 在 一 个 Presto 集群 中 配置 两 个 
catalog， 它 们 都 使 用 Hive 连接 器 ， 这 样 你 就 可 以 从 两 个 Hive 集群 中 查询 数据 。 











6.2 RDBMS 连 接 器 示例 : PostgreSQL 


Presto 包含 开源 和 专 有 RDBMS 的 连接 器 ， 包 括 MySQL、PostgreSQL、AWS Redshift 和 
Microsoft SQL Server 等 。Presto 通过 使 用 每 个 系统 各 自 的 JDBC 驱动 来 查询 这 些 数据 源 。 











下 面 来 看 一 个 使 用 PostgreSQL 的 简单 例子 。 一 个 PostgreSQL 实例 可 能 由 多 个 数据 库 组 成 ， 
每 个 数据 库 都 包含 多 个 schema， 而 schema ,中 则 包含 表 和 视图 等 对 象 。 当 在 Presto 中 配置 
PostgreSQL 时 ， 你 需要 将 目标 数据 库 设置 为 catalog。 


创建 一 个 简单 的 catalog 文件 ， 该 文件 指向 服务 器 中 的 特定 数据 库 ，etc/catalog/postgresql. 
properties 文件 如 下 所 示 ， 重 启 Presto 后 ， 就 可 以 查询 到 更 多 信息 了 。 你 还 可 以 看 到 
postgresql 连接 器 已 经 配置 为 connector .name 的 值 了 : 


























Connector .name=postgresqL 
connection-url=jdbc:postgresql://db.example.com:5432/database 
connection-user=root 

connection-password=secret 





catalog 属性 文件 中 的 用 户 名 和 密码 决定 了 对 底层 数据 源 的 访问 权限 。 例 如 ， 
这 可 以 用 来 限制 只 能 进行 只 读 操 作 或 限制 可 以 访问 哪些 表 。 























可 以 列 出 所 有 的 catalog 以 确认 新 的 catalog 是 否 可 用 ， 并 通过 Presto CLI 或 使 用 JDBC 驱 
动 的 数据 库 管 理工 具 来 查看 其 详细 信息 (3.1 节 和 3.2 节 中 有 详细 的 解释 ) : 





SHOW CATALOGS; 
Catalog 
system 
postgresql 
(2 rows) 


SHOW SCHEMAS IN postgresql; 
Catalog 

public 

airline 

(2 rows) 


USE postgresql.airline 
SHOW TABLES; 
Table 


airport 
carrier 
(2 rows) 


在 上 述 例子 中 我 们 连接 到 一 个 PostgreSQL 数据 库 ， 其 中 包含 两 个 schema: public 和 
airline。 而 在 airline schema 中 包含 两 个 表 : airport 和 carrier。 下 面 尝 试 运行 一 个 查 
询 ， 在 这 个 例子 中 ， 我 们 向 Presto 发 出 一 个 SQL 查询 ， 该 目标 表 存 在 于 PostgreSQL 数据 
库 中 。 使 用 PostgreSQL 连接 器 ，Presto 能 够 获取 要 处 理 的 数据 ， 随 后 将 结果 返回 给 用 户 : 
































SELECT code, name FROM airport WHERE code = 'ORD'; 


code | name 

------ +----------- 
ORD | Chicago O'Hare International 
(1 row) 


如 图 6-1 所 示 ， 客 户 端 将 查询 提交 给 Presto 协调 器 。 它 将 工作 分 配给 一 个 工作 节点 ， 由 工 
作 节 点 使 用 JDBC 将 整个 SQL 查询 语句 发 送 到 PostgreSQL。PostgreSQL JDBC 驱动 包含 于 
PostgreSQL 连接 器 ，PostgreSQL 处 理 查 询 并 通过 JDBC 返回 结果 。 连 接 器 读 取 结 果 并 将 其 
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写 入 Presto 内 部 数据 格式 。Presto 持续 在 工作 节点 上 进行 处 理 ， 将 其 处 理 结 果 提 供给 协调 
器 ， 然 后 将 最 终结 果 返 回 给 用 户 。 








JDBC 


| 查询 语句 











图 6-1: 使 用 连接 器 中 的 JDBC 实现 Presto 集群 与 PostgresSQL 的 交互 


6.2.1 查询 下 推 

可 以 在 前 面 的 例子 中 看 到 ，Presto 能 够 通过 将 SQL 语句 下 推 到 底层 数据 源 中 来 进行 负载 
的 下 推 处 理 ， 这 就 是 所 谓 的 查询 下 推 ， 也 称 为 SQL 下 推 。 这 是 有 利 的 ， 因 为 可 以 减少 底 
层 系统 返回 给 Presto 的 数据 量 ， 从 而 避免 了 不 必要 的 内 存 、CPU 和 网 络 开销 。 此 外 ， 像 
PostgreSQL 这 样 的 系统 通常 在 某 些 过 滤 列 上 有 索引 ， 这 样 可 以 更 快 地 处 理 数 据 。 但 是 ,不 
一 定 总 是 能 将 整个 SQL 语句 下 推 到 数据 源 中 。 目 前 ，Presto 连接 器 的 SPI 限制 只 能 将 过 滤 
和 列 投影 下 推 : 





SELECT state, count(*) 
FROM airport 

WHERE Country = "US 
GROUP BY state; 


对 于 上 述 Presto 查询 ，PostgreSQL 连接 器 将 构造 如 下 SQL 查询 ， 从 而 下 推 到 PostgreSQL: 


SELECT state 
FROM airport 
WHERE country = 'US'; 


当 查 询 被 RDBMS 连接 器 下 推 时 ， 有 两 个 重要 的 地 方 需 要 注意 。SELECT 列表 中 的 列 被 设置 
为 Presto 所 需要 的 具体 内 容 。 在 本 例 中 ， 我 们 只 需要 state 列 来 处 理 Presto 中 的 GROUP BY。 
我 们 还 下 推 了 Filter country = "US'， 这 意味 着 无 须 在 Presto 中 对 country 这 一 列 进行 进 
一 步 的 处 理 。 可 以 注意 到 ， 聚 合 没 有 下 推 到 PostgreSQL 中 ， 这 是 因为 Presto 无 法 下 推 任何 
其 他 形式 的 查询 ， 因 此 聚合 必须 在 Presto 中 执行 。 这 可 能 是 有 益 的 ， 因 为 Presto 是 一 个 分 
布 式 查询 处 理 引 警 ， 而 PostgreSQL 不 是 。 











如 果 想 将 额外 的 处 理 下 推 到 底层 RDBMS 源 ， 可 以 使 用 视图 来 实现 。 如 果 你 在 PostgreSQL 
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中 把 处 理 封装 在 视图 中 ， 它 会 以 表 的 形式 暴露 在 Presto 中 ， 


























PostgreSQL 中 。 假 设 你 在 PostgreSQL 中 创建 了 视图 : 





CREATE view airline.airports_per_us_state AS 
SELECT state, count(*) AS count_star 

FROM airline.airport 

WHERE country = "US 

GROUP BY state; 


当 你 在 Presto 中 运行 SHOW TABLES 上 时， 就 会 看 到 这 个 视图 : 


SHOW TABLES IN postgresql.airline; 
Table 

airport 

carrier 

airports_per_us_state 

(3 rows) 


现在 你 可 以 直接 查询 视图 ， 所 有 的 处 理 都 被 下 推 到 PostgreSQL， 





式 出 现在 Presto 中 的 。 


SELECT * FROM airports_per_us_state; 


6.2.2 并行 性 和 并 发 性 


对 它 的 处 理 就 会 发 生 在 


因为 视图 是 以 普通 表 的 形 


目前 ， 所 有 的 RDBMS 连接 器 都 使 用 JDBC 与 底层 数据 源 进行 单一 连接 。 即 使 底层 数据 源 
是 一 个 并 行 系统 ， 也 不 能 并 行 读 取 数 据 。 对 于 像 Teradata 或 Vertica 这 样 的 并 行 系统 ， 你 必 


须 编写 并 行 连接 器 ， 以 利用 这 些 系 统 分 布 式 存 储 数据 的 特性 。 








当 从 同一 个 RDBMS 中 访问 多 个 表 时 ， 对 查询 中 的 每 个 表 都 会 创建 一 个 JDBC 连接 。 如 果 
查询 在 PostgreSQL 中 的 两 个 表 之 间 执 行 Join，Presto 通过 JDBC 创建 两 个 不 同 的 连接 来 检 
索 数 据 ， 如 图 6-2 所 示 。 它 们 并 行 运行 ， 返 回 结果 ， 然 后 在 Presto 中 执行 连接 。 




















查询 语句 








图 6-2: 用 于 访问 PostgreSQL 中 不 同 表 的 多 个 JDBC 连接 





就 像 聚 合 一 样 ，Join 不 能 下 推 。 但 是 ， 如 有 果 你 想 利用 底层 PostgreSQL 系统 中 可 能 的 性 能 提 
升 ， 可 以 在 PostgreSQL 中 创建 一 个 视图 ， 其 至 可 以 添加 原生 索引 来 进一步 提高 性 能 。 


6.2.3 ”其 他 RDBMS 连 接 器 


目前 ，Presto 开源 项 目 有 四 个 RDBMS 连接 器 。MySQL、PostgreSQL、AWS Redshift 和 
Microsoft SQL Server 的 连接 器 已 包含 在 Presto 的 插件 目录 中 ， 可 以 随时 配置 。 如 果 你 有 
多 个 服务 器 ， 或 者 想 要 分 开 访 问 ， 你 可 以 在 Presto 中 为 每 个 实例 配置 多 个 catalog。 只 需 将 
*.properties 文件 换个 名 称 即 可 。 与 之 前 一 样 ， 属 性 文件 的 名 称 决定 了 catalog 的 名 称 : 














SHOW CATALOGS; 
Catalog 
system 
mysql-dev 
mysql-prod 
mysql-site 
(2 rows) 


不 同 的 RDBMS 之 间 存 在 着 微小 的 差异 ， 下 面 来 看 看 其 各 自 的 catalog 配置 文件 是 如 何 配 
置 的 。 





在 MySQL 中 ， 数 据 库 和 schema 没有 区 别 ，catalog 文件 和 JDBC 连接 字符 串 都 指向 有 具体 的 
MySQL 服务 器 实例 : 

connector .name=mysql 

connection-url=jdbc:mysql://example.net:3306 


connection-user=root 
connection-password=secret 


PostgreSQL 做 了 明确 的 区 分 ， 一 个 实例 可 以 有 多 个 包含 schema 的 数据 库 。JDBC 连接 指向 
某 个 特定 的 数据 库 。 








connector .name=postgresql 
connection-url=jdbc:postgresql://example.net:5432/database 
connection-user=root 

connection-password=secret 





AWS Redshift 的 catalog 看 起 来 与 PostgreSQL 类 似 。 事 实 上 ，Redshift 使 用 的 是 PostgreSQL 
的 JDBC 驱动 ， 因 为 它 是 基于 开源 的 PostgreSQL 代码 ， 而 且 JDBC 驱动 是 兼容 的 ， 所 以 可 
用 于 : 




















connector .name=redshift 
connection-url=jdbc:postgresql://example.net:5439/database 
connection-user=root 

connection-password=secret 





Microsoft SQL Server 的 连接 字符 串 看 起 来 与 MySQL 类似。 但 是 ，SQL Server 确实 有 数据 
库 和 schema 的 概念 ， 这 个 例子 只 是 简单 地 连接 到 默认 的 数据 库 : 

















Connector .name=sqLserver 
connection-url=jdbc:sqlserver://example.net:1433 
connection-user=root 

connection-password=secret 


而 使 用 如 sates 等 不 同 的 数据 库 时 ， 则 必须 要 配置 一 个 属性 。 


connection-url=jdbc:sqlserver://example.net:1433;databaseName=sales 


6.2.4 安全 性 

目前 ，RDBMS 连接 器 进行 认证 的 唯一 方式 是 在 catalog 配置 文件 中 存储 用 户 名 和 密码 。 由 
于 Presto 集群 中 的 机 器 被 设计 成 可 信任 的 系统 ， 这 对 于 大 多 数 的 使 用 来 说 应 该 是 足够 的 。 
为 了 保证 Presto 和 所 连接 的 数据 源 的 安全 ， 对 机 器 和 配置 文件 的 安全 访问 非常 重要 ， 应 该 
像 对 待 私 钥 一 样 对 待 它 。 所 有 的 Presto 用 户 都 使 用 相同 的 连接 访问 RDBMS。 


如 果 你 不 想 用 明文 存储 密码 ， 有 一 些 方法 可 以 通过 Presto 客户 端 传递 用 户 名 和 密码 。 第 10 
章 将 进一步 讨论 。 











总 而 言 之 ，Presto 与 RDBMS 一 起 使 用 是 非常 容易 的 ， 可 以 将 所 有 的 系统 都 暴露 在 一 个 地 
方 ， 并 且 可 以 同时 查询 。 仅 此 就 表明 使 用 Presto 提供 了 巨大 的 益处 。 当 然 ， 用 其 他 连接 器 
添加 更 多 的 数据 产 之 后 ， 事 情 就 会 变 得 更 加 有 趣 。 所 以 ， 让 我 们 继续 深入 。 














6.3 Presto TPC-H 和 TPC-DS 连 接 器 


第 2 章 已 经 介绍 了 TPC-H 连接 器 的 使 用 方法 ， 下 面 来 详细 学 习 一 下 。 








TPC-H 和 TPC-DS 连接 器 内 置 于 Presto 中 ， 并 提供 了 一 套 schema 以 支持 TPC-H 和 TPC-DS 
基准 测试 。 事 务 处 理性 能 委员 会 提供 的 数据 库 基准 测试 套件 是 数据 库 系统 的 行业 标准 ， 用 
于 衡量 高 度 复杂 的 决策 支持 数据 库 的 性 能 。 


这 些 连 接 器 可 用 于 视 试 Presto 的 能 力 和 查询 语法 ， 无 须 配 置 外 部 数据 产 的 访问 。 当 你 查询 
一 个 TPC-H 或 TPC-DS 模式 时 ， 连 接 器 通过 使 用 一 个 确定 性 算法 实时 生成 一 些 数据 。 





























创建 一 个 catalog 属性 文件 etc/catalog/tpch.properties， 用 于 配置 TPC-H 连接 器 : 
connector .name=tpch 
TPC-DS 连接 器 的 配置 类 似 。 例 如 ， 用 etc/catalog/tpcds.properties : 


connector .name=tpcds 





这 两 个 连接 器 所 展示 的 schema 在 结构 上 包括 了 相同 的 数据 集 : 


SHOW SCHEMAS FROM tpch; 
Schema 
information_schema 

sf1 
sf100 
sf1000 
sf10000 
sf100000 
sf300 
sf3000 
sf30000 
tiny 

(10 rows) 


表 6-1 显示 了 不 同 的 schema 如 何在 orders 等 事务 性 表 中 包含 越 来 越 多 的 记录 。 





表 6-1: 不 同 TPCH schema 中 订单 表 的 记录 数 示例 





schema count 

tiny 15 000 

sfl 1 500 000 
sf3 4 500 000 
sf100 150 000 000 


如 第 8 章 和 第 9 章 所 述 ， 你 可 以 使 用 这 些 数据 集 来 学 习 更 多 Presto 所 支持 的 SQL， 而 无 须 
连接 另 一 个 数据 库 。 





这 些 连接 器 的 另 一 个 重要 使 用 场景 是 获得 简单 可 用 的 数据 。 可 以 将 这 些 连接 器 用 于 开发 和 
测试 ， 其 至 在 Presto 的 生产 部 署 中 使 用 。 由 于 易于 获得 很 大 的 数据 量 ， 因 此 你 可 以 构建 查 
询 并 在 Presto 集群 上 施加 很 大 负载 。 这 可 以 使 你 更 好 地 了 解 集群 性 能 ， 调 整 和 优化 它 ， 并 
确保 即使 发 生 了 跨 版 本 更 新 或 其 他 变更 ， 它 也 可 以 正常 工作 。 


6.4 用 于 分 布 式 存储 数据 源 的 Hive 连 接 器 


如 1.5 市 所 述 ，Presto 是 为 了 在 Facebook 这 样 的 体 量 上 运行 快速 查询 而 设计 的 。 鉴 于 
Facebook 在 其 Hive 数据 仓库 中 拥有 海量 的 存储 ，Hive 连接 器 自然 成 为 Presto 最 早 开发 的 
连接 器 之 一 。 




















6.4.1 Apache Hadoop 和 Hive 


在 阅读 Hive 连接 器 以 及 它 对 众多 对 象 存储 格式 的 适用 性 之 前 ， 需 要 先 梳理 一 下 Apache 
Hadoop 和 Apache Hive 的 相关 知识 。 
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如 果 你 对 Hadoop 和 Hive 不 熟悉 且 想 了 解 更 多 ， 推 荐 你 浏览 一 下 相关 项 目的 官方 网 站 、 视 
频 和 网 络 上 的 其 他 资源 ， 以 及 一 些 优 秀 的 图 书 。 比 如 Edward Capriolo 等 人 的 Programming 
Hive (O'Reilly 出 版 ) 就 是 一 本 很 好 的 指南 。 


下 面 我 们 先 讨论 某 些 Hadoop 和 Hive 的 概念 ， 以 便 为 Presto 的 使 用 提供 足够 的 背景 知识 。 





Hadoop 的 核心 是 由 HDFS 和 应 用 软件 (如 Hadoop MapReduce) 组 成 ,这些 应 用 程序 与 
HDFS 中 的 数据 进行 交互 。Apache YARN 用 于 管理 Hadoop 应 用 程序 所 需 的 资源 。Hadoop 
是 一 种 领先 的 多 机 集群 系统 ， 它 用 于 大 规模 数据 集 的 分 布 式 处 理 。 它 能 够 对 系统 进行 伸 
缩 ， 同 时 在 计算 机 集群 之 上 提供 高 可 用 服务 。 


最 初 ， 数 据 处 理 是 通过 编写 MapReduce 程序 来 完成 的 。 开 发 者 遵循 一 种 特定 的 编程 模型 ， 
以 让 数据 处 理 能 够 自然 地 分 布 在 集群 中 。 这 种 模型 运行 得 很 好 ， 也 很 稳健 。 然 而 ， 编 写 
MapReduce 程序 来 分 析 问 题 很 麻烦 。 对 于 依赖 SQL 和 数据 仓库 的 现 有 基础 设施 、 工 具 和 
用 户 来 说 ， 很 难 迁 移 到 MapReduce 上 。 




















Hive 提供 了 MapReduce 之 外 的 另 一 种 使 用 方式 。 它 最 初 是 用 来 在 Hadoop 之 上 提供 一 个 
SQL 抽象 层 ， 从 而 使 用 类 似 于 SQL 的 语法 与 HDFS 中 的 数据 进行 交互 。 这 样 ， 大 量 了 解 
SQL 的 用 户 便 可 以 与 存储 在 HDFS 中 的 数据 进行 交互 。 


Hive 数据 以 文件 的 形式 存储 在 HDFS 中 ， 通 常 叫 作对 象 。 这 些 文件 使 用 各 种 格式 ， 如 
ORC、Parquet 等 。 这 些 文件 以 Hive 所 设 定 的 特定 目录 和 文件 布局 来 存储 ， 如 分 区 表 和 分 
桶 表 。 我 们 把 这 种 布局 称 为 Hive 风格 的 表格 式 。 


Hive 的 元 数据 描述 了 存储 在 HDFS 中 的 数据 如 何 映射 到 schema、 表 和 列 中 ， 并 通过 SQL 
进行 查询 。 这 些 元 数据 信息 保存 在 MySQL 或 PostgreSQL 等 数据 库 中 ， 可 以 通过 Hive 
Metastore 服务 (HMS) 进行 访问 。 























Hive 运行 时 提供 了 类 似 SQL 的 查询 语言 和 分 布 式 执行 层 来 执行 查询 。Hive 运行 时 将 查询 
翻译 成 一 组 可 以 在 Hadoop 集群 上 运行 的 MapReduce 程序 。 随 着 时 间 的 推移 ，Hive 的 演进 
使 得 查询 可 以 翻译 到 其 他 的 执行 引擎 ， 如 Apache Tez 和 Spark 等 。 


Hadoop 和 Hive 在 业界 得 到 了 广泛 的 应 用 。 随 着 它们 的 使 用 ，HDFS 格式 已 经 成 为 许多 
其 他 分 布 式 存储 系统 所 支持 的 格式 ， 如 Amazon S3 和 S3 兼容 的 存储 、Azure Data Lake 
Storage、Azure Blob Storage 以 及 Google Cloud Storage 等 。 





6.4.2 ”Hive 连 接 器 
Presto 的 Hive 连接 器 允许 你 连接 到 HDFS 对 象 存储 集群 。 它 利用 HMS 中 的 元 数据 ， 查 询 
和 处 理 存储 在 HDFS 中 的 数据 。 








Presto 最 常见 的 使 用 场景 可 能 是 利用 Hive 连接 器 从 分 布 式 存储 〈 如 HDFS 或 云 存储 ) 读 取 
数据 。 


Presto 和 Presto Hive 连接 器 完全 不 使 用 Hive 运行 时 环境 。Presto 是 它 的 替代 
品 ， 用 于 运行 交互 式 查 询 。 





Hive 连接 器 允许 Presto 从 HDFS 中 读 写 ， 但 它 并 不 局 限于 HDFS， 而 是 旨 在 可 以 与 一 般 
的 分 布 式 存储 一 起 工作 。 目 前 ， 可 以 将 Hive 连接 器 配置 为 与 HDFS、AWS S3、Azure 
Blob Storage、Azure Data Lake Storage、Azure Data Lake Storage、Google Cloud Storage 和 
S3 兼容 存储 一 起 工作 。S3 兼容 存储 可 能 包括 MinIO、Ceph、IBM Cloud Object Storage、 
SwiftStack、Cloudian、Riak CS、LeoFS、OpenIO 等 。 市 面 上 有 各 种 S3 兼容 存储 ， 只 有 它 
们 实现 S3 API 并 且 行 为 方式 相同 ， 那 么 在 大 多 数 情况 下 Presto 就 无 须知 道 它 们 的 区 别 。 











由 于 Hadoop 和 其 他 HDFS 兼容 系统 的 广泛 使 用 ， 以 及 Hive 连接 器 内 置 的 支持 这 些 系 统 的 
扩展 功能 集 ，Hive 连接 器 可 以 被 认为 是 使 用 Presto 查询 对 象 存储 的 主要 连接 器 。 因 此 ， 对 
许多 甚至 大 多 数 Presto 用 户 来 说 ， 它 至 关 重 要 。 














在 架构 上 ，Hive 连接 器 与 RBDMS 和 其 他 连接 器 有 一 点 不 同 。 因 为 它 根 本 不 使 用 Hive 引 
擎 本 身 ， 所 以 不 能 将 SQL 处 理 下 推 到 Hive 中 。 相 反 ，Hive 连接 器 只 是 使 用 HMS 中 的 元 
数据 ， 并 使 用 Hadoop 项 目 提供 的 HDFS 客户 端 直接 访问 HDFS 上 的 数据 。 它 还 假定 数据 
以 Hive 表格 式 保存 在 分 布 式 存储 中 。 


无 论 使 用 什么 存储 系统 ，schema 信息 都 是 从 HMS 中 获取 的 ， 并 且 数 据 布 局 也 与 Hive 数据 
仓库 相同 。 概 念 是 一 样 的， 数据 却 可 能 并 不 存储 在 HDFS 上 。 然 而 ， 与 Hadoop 不 同 的 是 ， 
这 些 非 Hadoop 的 分 布 式 文件 系统 并 非 总 有 HMS 等 价 物 来 存储 元 数据 ， 以 供 Presto 使 用 。 
要 利用 Hive 风格 的 表格 式 ， 必 须 将 Presto 配置 为 要 么 使 用 现 有 Hadoop 集群 中 的 HMS， 
要 么 使 用 独立 的 HMS。 这 意味 着 ， 你 需要 使 用 AWS Glue 等 HMS 的 蔡 代 品 ， 或 者 仅 运 行 
HMS 的 一 个 最 小 Hadoop 部 署 。 























使 用 HMS 来 描述 HDFS 以 外 的 blob 存储 中 的 数据 ， 使 得 Hive 连接 器 可 以 查询 这 些 存储 
和 系统。 这样， 通过 Presto 和 任何 能 够 使 用 SQL 的 工具 ， 我 们 便 能 够 利用 SQL 的 所 有 功能 
来 分 析 存 储 在 这 些 系统 中 的 数据 了 。 


配置 一 个 catalog 来 使 用 Hive 连接 器 ， 需 要 你 创建 一 个 catalog 属性 文件 ， 文 件 名 为 etc/ 
catalog/s3.properties 、etc/catalog/gcs.properties 或 etc/catalog/minio.properties， 甚 至 仅仅 是 
etc/catalog/hdfs.properties 或 etc/catalog/objectstorage.properties。 下 面 假设 使 用 etc/catalog/ 
hive.properties。 你 至 少 需 要 配置 连接 器 的 名 称 和 HMS 的 URL。 











connector .name=hive-hadoop2 
hive.metastore.uri=thrift://example.net:9083 
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许多 其 他 的 配置 属性 适用 于 不 同 的 使 用 场景 ， 其 中 一 些 你 很 快 就 会 了 解 到 。 当 有 疑问 时 ， 
一 定 要 查看 文档 (参见 1.4.2 节 )。 接 下 来 看 其 中 的 一 些 细节 。 


6.4.3 ”Hive 式 表格 式 


一 旦 配置 好 了 连接 器 ， 就 可 以 在 Presto 中 创建 schema， 例 如 ， 在 HDFS 中 创建 schema: 





CREATE SCHEMA hive.web 
WITH (Location = 'hdfs://starburst-oreilly/web') 


schema， 有 时 仍 称 为 数据 库 ， 可 以 包含 多 个 表 。 你 可 以 在 6.4.4 节 中 读 到 更 多 关于 它们 的 
内 容 。schema 的 创建 通常 只 是 在 HMS 中 创建 关于 schema 的 元 数据 : 








hdfs://starburst-oreilly/web/customers 
hdfs://starburst-oreilly/web/clicks 
hdfs://starburst-oreilly/web/sessions 





使 用 Amazon S3 没有 太 大 区 别 。 你 只 是 使 用 了 不 同 的 协议 字符 串 ; 


CREATE SCHEMA hive.web 
WITH (location = 's3://example-org/web') 


s3://example-org/web/customers 
s3://example-org/web/clicks 
s3://example-org/web/sessions 


6.4.4 内 部 表 与 外 部 表 
介绍 完 shema， 我 们 需要 了 解 schema 中 的 内 容 ， 它 们 是 以 表 的 形式 组 织 起 来 的 。Hive 
区 分 了 内 部 表 和 外 部 表 。 内 部 表 是 由 Hive 管理 的 ， 因 此 其 实 也 是 由 Presto 管理 的 ， 它 和 
它 的 数据 一 起 创建 于 数据 库 目 录 所 在 的 位 置 ， 而 外 部 表 不 是 由 Hive 管理 的 ， 它 明确 指向 
Hive 所 管理 的 目录 之 外 的 一 个 位 置 。 


内 部 表 和 外 部 表 的 主要 区 别 在 于 ，Hive 以 及 Presto 是 否 掌握 内 部 表 中 的 数据 。 如 果 你 删除 
一 个 内 部 表 ，HMS 中 的 元 数据 和 数据 本 身 都 会 被 删除 。 如 果 你 删除 一 个 外 部 表 ， 数 据 仍 
然 存在， 只 有 关于 该 表 的 元 数据 会 被 删除 。 


你 使 用 的 表 的 类 型 取决 于 你 打算 使 用 Presto 的 方式 。 你 可 能 会 将 Presto 用 于 数据 联邦 、 数 
据 仓库 或 数据 湖 ， 或 两 者 兼 而 有 之 ， 或 其 他 混用 方式 。 你 需要 决定 谁 掌握 这 些 数 据 。 可 以 
是 Presto 与 HMS 一 起 工作 ， 也 可 以 是 Hadoop 和 HMS， 或 Spark， 或 ETL 管道 中 的 其 他 
工具 。 在 所 有 情况 下 ， 元 数据 都 是 在 HMS 中 管理 的 。 
































哪个 系统 掌握 并 管理 HMS 和 数据 这 一 决定 通常 取决 于 数据 架构 。 在 Presto 的 早期 使 用 场 
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景 中 ，Hadoop 往往 控制 着 数据 的 生命 周期 ， 但 随 着 更 多 的 用 例 将 Presto 作为 中 心 工 具 ， 很 
多 用 户 的 使 用 模式 发 生 了 转变 ，Presto 接管 了 控制 权 。 





一 些 Presto 的 新 用 户 一 开始 是 查询 现 有 的 Hadoop 部 署 。 这 种 情况 下 ，Presto 一 开始 更 多 
是 作为 数据 联邦 使 用 ， 而 Hadoop 掌握 数据 。 你 配置 Hive 连接 器 ， 将 Hadoop 中 的 现 有 表 
暴露 给 Presto 进行 查询 ， 此 时 使 用 的 是 外 部 表 ， 通 常 不 允许 Presto 写 和 这些 表 。 








其 他 的 Presto 用 户 可 能 从 Hadoop 完全 迁移 到 Presto， 或 者 开始 使 用 其 他 对 象 存储 系统 ， 
具体 来 说 ， 往 往 是 基于 云 的 系统 。 在 这 种 情况 下 ， 最 好 是 在 Presto 上 执行 数据 定义 语言 
(DDL )， 让 Presto 掌握 数据 。 








CREATE TABLE hive.web.page_views ( 
View time timestamp, 
user_id bigint, 
page_url varchar, 
view date date, 
country varchar 


) 


在 这 个 例子 中 ， 表 page_views 在 一 个 名 为 page_views 的 目录 下 存储 数据 。 这 个 page_views 
目录 是 由 hive.metastore.warthere.dir 定义 的 目录 下 的 一 个 子 目录 ， 如 果 你 在 创建 schema 时 
定义 了 其 位 置 ， 那 么 该 表 的 位 置 就 是 所 指定 schema 目录 下 的 一 个 子 目录 。 


























下 面 是 一 个 HDFS 的 例子 。 











hdfs://user/hive/warehouse/web/page_views/... 





下 面 是 一 个 Amazon S3 的 例子 。 











s3://example-org/web/page_views/... 


接 下 来 看 一 下 在 指向 现存 数据 的 Presto 表 上 的 DDL。 这 些 数据 是 通过 其 他 方式 创建 和 管理 
的 ， 例 如 由 Spark 或 ETL 过 程 将 数据 写 入 存储 中 。 这 种 情况 下 ， 可 以 通过 Presto 创建 一 个 
外 部 表 ， 指 向 这 个 数据 所 在 的 外 部 位 置 。 


CREATE TABLE hive.web.page views (人 
View time timestamp, 
user_id bigint, 
page_url varchar, 
view date date, 
country varchar 
) 
WITH ( 
external_location = 's3://starburst-external/page_views' 


) 


这 将 有 关 表 的 元 数据 插入 HMS 中 ， 包 括 外 部 路 径 和 标志 ， 告 诉 Presto 和 HMS 该 表 是 外 部 
的 ， 因 此 由 另 一 个 系统 管理 。 














86 | 第 6 章 


此 ， 位 于 s3://example-org/page_views 中 的 数据 可 能 已 经 存在 。 一 旦 在 Presto 中 创建 了 
表 ， 你 就 可 以 开始 查询 它 了 。 当 你 将 Hive 连接 器 配置 到 现 有 的 Hive 仓库 中 时 ， 可 以 看 到 
现 有 的 表 ， 并 且 能 够 立即 对 这 些 表 进行 查询 。 


或 者 ， 你 可 以 在 空 的 目录 中 创建 表 ， 并 期 望 数据 被 Presto 或 外 部 源 加 载 进来 。 在 这 两 种 情 
况 下 ，Presto 都 要 求 已 经 创建 了 目录 结构 ， 否 则 ，DDL 会 出 错 。 创 建 外 部 表 最 常见 的 场景 
是 与 其 他 工具 共享 数据 时 。 




















6.4.5 ”分 区 数据 

目前 ， 你 已 经 了 解 了 一 个 表 的 数据 ， 不 管 是 内 部 的 还 是 外 部 的 ， 都 是 以 一 个 或 多 个 文件 的 
形式 存储 在 一 个 目录 中 。 数 据 分 区 是 这 一 点 的 延伸 ， 它 将 逻辑 表 横 向 划分 为 小 块 数据 ， 称 
为 分 区 。 


这 个 概念 本 身 源 于 RDBMS 中 的 分 区 schema。Hive 将 这 种 技术 引入 HDFS 中 的 数据 ， 用 
于 实现 更 好 的 查询 性 能 并 提升 数据 的 可 管理 性 。 


在 分 布 式 文件 系统 (如 HDFS) 和 对 象 存储 (如 S3) 中 ， 分 区 已 成 为 标准 的 数据 组 织 策略 。 
让 我 们 用 这 个 表 的 例子 来 演示 一 下 分 区 : 




















CREATE TABLE hive.web.page_ views ( 
view time timestamp, 
user_id bigint, 
page_UrL varchar, 
view_date date 
) 
WITH ( 
partitioned_by = ARRAY[ 'view_date'] 
) 





partitioned_by 子 句 中 列 出 的 列 必 须 是 DDL 中 定义 的 最 后 一 列 ， 否 则 ， 
Presto 会 报错 。 











与 非 分 区 表 一 样 ，page_views 表 的 数据 位 于 .…/page_views 中 。 使 用 分 区 可 以 改变 表 的 布局 
构建 方式 。 使 用 分 区 表 在 表 目 录 中 添加 了 额外 的 子 目 录 。 在 下 面 的 例子 中 ， 可 以 看 到 由 分 
区 键 定义 的 目录 结构 : 








.../page_views/view date=2019-01-14/... 
.../page_views/view date=2019-01-15/... 
.../page_views/view date=2019-01-16/... 





Presto 同样 使 用 这 种 Hive 风格 的 表格 式 。 此 外 ， 你 可 以 选择 在 多 个 列 上 进行 分 区 : 


CREATE TABLE hive.web.page views ( 
View time timestamp, 
user_id bigint, 
page_url varchar, 
view date date, 
country varchar 
) 
WITH ( 
partitioned_by = ARRAY['view_date', 'country'] 
) 


当选 择 多 个 分 区 列 时 ，Presto 会 创建 一 个 分 层 目 录 结 构 : 








.../page_views/view date=2019-01-15/country=US... 
.../page_views/view date=2019-01-15/country=PL... 
.../page_views/view date=2019-01-15/country=UA... 
.../page_views/view date=2019-01-16/country=US... 

../page_views/view date=2019-01-17/country=AR... 





分 区 可 以 提高 查询 性 能 ， 特 别 是 当 你 的 数据 规模 越 来 越 大 时 。 让 我 们 以 下 面 的 查询 为 例 : 














SELECT DISTINCT user_id 
FROM page_views 
WHERE view_date = DATE '2019-01-15' AND country = 'US'; 


当 提 交 此 查询 时 ，Presto 会 识别 WHERE 子 句 中 的 分 区 列 ， 并 使 用 关联 值 只 读 取 view_date= 


2019-01-15/country=US 子 目 录 。 只 读 取 需要 的 分 区 可 能 会 节省 大 量 性 能 。 如 果 数 据 规模 现 
在 还 很 小 ， 性 能 提升 可 能 不 会 很 明显 ， 但 随 着 数据 规模 增长 ， 性 能 的 提升 是 非常 显著 的 。 





6.4.6 加载 数据 


至 此 ， 你 已 经 了 解 了 Hive 风格 的 表格 式 和 分 区 数据 。 如 何 把 数据 放 到 表 里 呢 ? 这 取决 于 
谁 掌握 这 些 数 据 。 让 我 们 先 假定 你 在 Presto 中 创建 表 并 用 Presto 加 载 数据 。 








CREATE TABLE hive.web.page views ( 
View time timestamp, 
user_id bigint, 
page_url varchar, 
view date date, 
country varchar 


) 
WITH ( 
partitioned_ by = ARRAY['view date', 'country'] 
) 
Presto 支持 INSERT INTO ... VALUES INSERT INTO ... SELECT 和 CREATE TABLE AS SELECT 





等 语句 ， 从 而 加 载 数据 。 虽 然 有 INSERT INT0 语句 ， 但 其 作用 是 有 限 的 ， 因 为 每 个 INSERT 
语句 只 创建 一 个 文件 或 一 行 数据 。 这 通常 用 于 学 习 Presto 的 时 候 。 





INSERT SELECT 和 CREATE TABLE AS 语句 执行 同样 的 功能 。 使 用 哪 一 个 取决 于 是 要 加 载 到 现 
有 表 中 ， 还 是 在 加 载 时 创建 表 。 以 INSERT SELECT 为 例 ， 你 可 能 要 从 一 个 非 分 区 的 外 部 表 
中 查询 数据 ， 然 后 在 Presto 中 加 载 到 一 个 分 区 表 中 : 


presto:web> INSERT INTO page_views ext SELECT * FROM page_views; 
INSERT: 16 rows 





上 面 的 例子 展示 了 在 外 部 表 中 插入 新 数据 。 但 默认 情况 下 ，Presto 不 允许 
向 外 部 表 写 入 数据 。 要 启用 它 ， 你 需要 在 catalog 配置 文件 中 将 hive.non- 
managed-table-writes-enabled 设置 为 true。 
































如 果 你 熟悉 Hive，Presto 支持 所 谓 的 动态 分 区 : 当 Presto 检测 到 分 区 列 值 没 有 对 应 的 目录 
时 会 创建 它 。 





你 也 可 以 在 Presto 中 创建 一 个 外 部 分 区 表 。 假 设 在 S3 中 一 个 带 数 据 的 目录 结构 如 下 所 示 : 





s3://example-org/page_views/view date=2019-01-14/... 
s3://example-org/page_views/view date=2019-01-15/... 
s3://example-org/page_views/view date=2019-01-16/... 


通过 以 下 语句 创建 外 部 表 的 定义 : 


CREATE TABLE hive.web.page views ( 
view time timestamp, 
user_id bigint, 
page_UrL varchar, 
view_ date date 
) 
WITH ( 
partitioned_by = ARRAY['view_date'] 
) 


之 后 从 中 查询 : 


presto:web> SELECT * FROM page_views; 

view time | user_id | page_url | view date 
----------- +---------+----------+----------- 
(0 rows) 














发 生 了 什么 ”即使 我 们 知道 其 中 有 数据 ，HMS 也 无 法 识别 分 区 。 如 果 你 熟悉 Hive， 就 会 
知道 用 于 自动 发 现 所 有 分 区 的 MSCK REPAIR TABLE 命令 。 幸 和 运 的 是 ，Presto 也 有 自己 的 命令 
来 自动 发 现 和 添加 分 区 : 








用 

Kk 
路 
Oo 
\D 


CALL system.sync_partitton_metadata( 
"web ' ， 
"page_Vviews ' ， 
"FULL 

) 


现在 我 们 已 经 添加 了 分 区 ， 再 试 一 下 : 


presto:web> SELECT * FROM page_views; 


view_time | user_id | page_urL | view date 
--------------------- +---------+----------+------------ 
2019-01-25 02:39:09.987 | 423 | ss | 2019-01-14 


2019-01-25 02:39:11.807 | 123 | ses | 2019-01-15 





另外 ，Presto 提供 了 手动 创建 分 区 的 能 力 。 这 通常 很 麻烦 ， 因 为 你 必须 使 用 命令 逐个 定义 
每 个 分 区 : 





CALL system.create empty_partition[w][x]( 
"web ' ， 
"page_Vviews ' ， 
ARRAY[ 'view_date' ] ， 
ARRAY[ '2019-01-14'] 
) 


当 你 想 通过 ETL 过 程 在 Presto 之 外 创建 分 区 ， 然 后 想 将 新 数据 暴露 给 Presto 时 ， 添 加 空 分 
区 是 非常 有 用 的 。 


Presto 还 支持 删除 分 区 ， 只 需 在 DELETE 语句 的 WHERE 子 句 中 指定 分 区 列 值 即 可 。 在 这 个 例 
子 中 ， 数 据 本 身 保持 不 变 ， 因 为 它 是 外 部 表 。 








DELETE FROM hive.web.page_views 
WHERE view date = DATE '2019-01-14' 














需要 强调 的 是 ， 不 一 定 要 用 Presto 来 管理 表 和 数据 。 许 多 用 户 利用 Hive 或 其 他 工具 来 创 
建 和 操作 数据 ， 而 Presto 只 用 于 查询 数据 。 


6.4.7 ”文件 格式 和 压缩 


Presto 支持 Hadoop/HDFS 中 的 许多 常用 文件 格式 ， 包 括 : 








。 ORC 

。 PARQUET 
。 AVRO 

。 JSON 
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。 TEXTFILE 

。 RCTEXT 

。 RCBINARY 

。 CSV 
SEQUENCEFILE 


Presto 使 用 的 三 种 最 常用 的 文件 格式 是 ORC、Parquet 和 Avro 数据 文件 。ORC、Parquet、 
RC Text 和 RC Binary 格式 的 读 取 组 件 在 Presto 中 做 了 大 量 的 性 能 优化 。 





HMS 中 的 元 数据 包含 文件 格式 信息 ， 以 便 Presto 知道 在 读 取 数 据 文件 时 使 用 什么 读 取 组 
件 。 在 Presto 中 创建 一 个 表 时 ， 数 据 类 型 被 默认 设置 为 ORC， 但 可 以 在 CREATE TABLE 语 
句 中 的 WITH 属性 里 覆盖 默认 的 数据 类 型 : 








CREATE TABLE hive.web.page views ( 
view time timestamp, 
user_id bigint, 
page_url varchar, 
ds_date, 
country varchar 
) 
WITH ( 
format = 'ORC' 
) 


catalog 中 所 有 表 的 默认 存储 格式 可 以 通过 catalog 属性 文件 中 的 hive.storage-format 配置 
来 设置 。 


默认 情况 下 ，Presto 使 用 GZIP 压缩 编 解码 器 来 编写 文件 。 可 通过 在 catalog 属性 文件 中 设 
置 hive.compression-codec 配置 ， 将 代码 更 改 为 使 用 SNAPPY 或 NONE。 














6.4.8 MinIO 示 例 


MinIO 是 一 个 兼容 S3 的 轻 量 级 分 布 式 存储 系统 ， 你 可 以 使 用 Presto 和 Hive 连接 器 来 访问 
它 。 如 果 你 想 更 详细 地 了 解 它 的 使 用 ， 可 以 查看 我 们 的 示例 项 目 。 

















如 果 你 的 HDFS 开启 了 Kerberos， 你 可 以 在 10.8 节 中 了 解 更 多 关于 Hive 连 
接 器 的 配置 。 





6.5 ” 非 关 系数 据 源 
Presto 利用 连接 器 来 查询 非 关 系数 据 源 的 变 体 。 这 些 数 据 源 通常 叫 作 NoSQL 系统 ， 可 以 
是 键 值 存储 、 列 存储 、 流 处 理 系 统 、 文 档 存 储 和 其 他 系统 。 











其 中 一 些 数 据 源 提供 了 类 似 SQL 的 查询 语言 ， 如 Apache Cassandra 的 CQL ， 另 一 些 则 只 
提供 了 特定 的 工具 或 API 来 访问 数据 ， 或 者 使 用 完全 不 同 的 查询 语言 ， 如 Elasticsearch 中 
使 用 的 DSL (domain specific language) 查询 。 这 些 语言 只 具有 有 限 的 完备 性 并 且 没 有 标 
准 化 。 

这 些 NoSQL 数据 产 的 Presto 连接 器 允许 你 在 这 些 系 统 上 运行 SQL 查询 ， 就 像 关系 数据 源 
一 样 。 这 使 得 你 可 以 使 用 商业 智能 工具 等 应 用 程序 ， 或 者 允许 懂 SQL 的 人 查询 这 些 数 据 
源 。 这 包括 在 这 些 数据 源 上 使 用 Join、 聚 合 、 子 查询 和 其 他 高 级 SQL 功能 。 


你 将 在 第 7 章 中 了 解 到 更 多 关于 这 些 连 接 器 的 内 容 。 











。 NoSQL 系统 ， 如 Elasticsearch 或 MongoDB (参见 7.5 节 )。 

。 流 系统 ， 如 Apache Kafka (参见 7.4 节 )。 

。 键 值 存储 系统 ， 如 Apache Accumulo (参见 7.2 节 ) 和 Apache Cassandra (参见 7.3 节 )。 
。 用 于 Apache HBase 的 Apache Phoenix 连接 器 (参见 7.1 节 )。 


我 们 先 跳 过 它们 ， 讨 论 一 些 比 较 简 单 的 连接 器 。 





6.6 ”Presto JMX 连 接 器 
JMX 连接 器 可 以 通过 catalog 属性 文件 etc/catalog/jmx.properties 轻松 配置 使 用 。 
connector .name=jmx 


JMX 连接 器 公开 了 关于 运行 Presto 协调 器 和 工作 节点 的 JVM 的 运行 时 信息 。 它 使 用 Java 
管理 扩展 (Java management extensions，JMX)， 人 允许 你 使 用 Presto 的 SQL 接口 来 访问 可 
用 信息 。 这 对 于 监控 和 故障 排除 非常 有 用 。 


该 连接 器 为 历史 数据 、 聚 合 数据 提供 了 名 为 history 的 schema， 为 最 新 数据 提供 了 名 为 
current 的 schema， 并 且 为 元 数据 提供 了 名 为 information_schema 的 Schema。 


最 简单 的 学 习 方 法 就 是 用 Presto 语句 来 查看 有 哪些 可 用 的 表 。 


SHOW TABLES FROM jmx.current; 

Table 
com.sun.management:type=diagnosticcommand 
com.sun.management:type=hotspotdiagnostic 
io.airlift.discovery.client:name=announcer 
io.airlift.discovery.client:name=serviceinventory 
io.airlift.discovery.store:name=dynamic,type=distributedstore 
io.airlift.discovery.store:name=dynamic,type=httpremotestore 











如 你 所 见 ， 表 名 使 用 Java classpath， 其 包含 指标 所 发 出 的 类 及 其 参数 。 这 意味 着 ， 在 SQL 
语句 中 引用 表 名 时 需要 使 用 引号 。 一 般 来 说 ， 查 看 表 中 的 可 用 列 非 常 有 用 : 





DESCRIBE jmx.current."java.lang:type=runtime"; 


Column | Type | Extra | Comment 
------------------------ +--------- +------- +-- 
bootclasspath | varchar | | 

bootclasspathsupported | boolean | 
classpath | varchar | | 
inputarguments | varchar | 
librarypath | varchar | | 
managementspecversion | varchar | | 
name | varchar | | 
objectname | varchar | | 
specname | varchar | | 
specvendor | varchar | | 
specversion | varchar | | 
starttime | bigint | 
systemproperties | varchar | 

uptime | bigint | 

vmname | varchar | | 
vmvendor | varchar | | 
vmversion | varchar | | 
node | varchar | | 
object_name | varchar | | 
(19 rows) 


这 使 你 可 以 很 好 地 格式 化 信息 : 


SELECT vmname, Uptime, node FROM jmx.current." 


java. lang:type=runtime"; 


vmname | uptime | node 


Pe 过 六 证 


OpenJDK 64-Bit Server VM | 1579140 | ffffffff-ffff 


(1 row) 








请 注意 ， 此 查询 只 返回 一 个 市 点 ， 因 为 它 运行 在 第 2 

















安装 上 。 


章 所 述 的 单 协调 器 /工作 节点 的 简单 


JMX 连接 器 将 大 量 有 关 JVM 的 信息 暴露 出 来 ， 其 中 包括 Presto 特定 的 信息 。 可 以 通过 查 
看 以 presto 开头 的 表 来 浏览 可 用 的 数据 ， 例 如 DESCRIBE jmx.current."presto.execution: 


name=queryexecution";。, 











以 下 是 其 他 一 些 值得 查看 的 DESCRIBE 语句 : 





DESCRIBE jmx.current."presto.execution:name=querymanager"; 
DESCRIBE jmx.current."presto.memory:name=clustermemorymanager"; 
DESCRIBE jmx.current."presto.failuredetector:name=heartbeatfailuredetector"; 














要 了 解 更 多 使 用 Web UI 监控 Presto 和 其 他 相关 方 盏 











i 的 信息 ， 你 可 以 阅读 第 12 章 。 








6.7 黑洞 连接 器 
黑洞 连接 器 可 以 很 容易 地 在 catalog 属性 文件 (如 etc/catalog/blackhole.properties) 中 配置 
使 用 。 








connector .name=blackhole 


它 作为 任何 数据 的 最 终 消 费 者 ， 类 似 于 UNIX 操作 系统 中 的 null 设备 (/dev/null)。 你 可 以 
把 它 作为 从 其 他 catalog 中 读 取 并 插入 数据 的 目标 。 因 为 它 实际 上 不 写 入 任何 内 容 ， 所 以 你 
可 以 用 它 来 衡量 从 这 些 catalog 中 读 取 数据 的 性 能 。 











例如 ， 你 可 以 在 blackhole 中 创建 名 为 test 的 schema， 并 从 tpch.tiny 数据 集中 创建 一 个 
表 。 然 后 从 tpch.sf3 中 读 取 一 个 数据 集 ， 并 将 其 插入 blackhole catalog 中 。 








CREATE SCHEMA blackhole.test; 
CREATE TABLE blackhole.test.orders AS SELECT * from tpch.tiny.orders; 
INSERT INTO blackhole.test.orders SELECT * FROM tpch.sf3.orders; 


这 个 操作 本 质 上 是 衡量 从 tpch catalog 中 读 取 性 能 ， 它 读 取 了 150 万 条 订单 记录 ， 然 后 将 
其 发 送 到 blackhole。 使 用 其 他 模式 (如 tcph.sf100) 会 增加 数据 集 的 大 小 。 这 可 以 用 来 
评估 你 的 Presto 集群 的 性 能 。 


可 以 用 RDBMS、 对 象 存储 或 键 值 存储 catalog 进行 类 似 的 查询 ， 帮 助 我 们 进行 查询 开发 、 
性 能 测试 及 改进 。 


6.8 ”内 存 连接 器 


内 存 连接 器 可 以 通过 配置 catalog 属性 文件 开启 ， 例 如 ，etc/catalog/memory.properties。 





connector .name=memory 


你 可 以 像 使 用 临时 数据 库 一 样 使 用 内 存 连 接 器 。 所 有 的 数据 都 存储 在 集群 的 内 存 中 ， 停 止 集 
群 就 会 销毁 数据 。 当 然 ， 你 也 可 以 主动 使 用 SQL 语句 来 删除 表 中 的 数据 ， 其 至 删除 整 张 表 。 


使 用 内 存 连 接 如 对 查询 测试 或 临时 存储 非常 有 用 。 例 如 ， 在 使 用 芝 尾 花 数 据 集 时 ， 我 们 将 
它 当 作 一 个 外 部 数据 源 的 简单 奉 代 物 ， 参 见 1.4.7 市 。 











虽然 内 存 连 接 器 对 于 测试 和 做 小 任务 很 有 用 ， 但 对 于 大 数据 集 和 在 生产 环境 
中 使 用 (尤其 是 数据 分 布 在 集群 中 时 ) 并 不 适合 。 例 如 ， 数 据 可 能 会 分 布 在 
不 同 的 工作 节点 上 ， 如 果 一 个 工作 节点 崩溃 ， 就 会 导致 该 数据 丢失 。 仅 对 临 
时 数据 可 以 使 用 内 存 连 接 器 。 











6.9 其 他 连接 器 


你 现在 知道 ，Presto 项 目 包含 许 多 连接 器 ， 但 有 时 你 会 遇 到 这 样 的 情况 : 你 需要 为 一 个 特 
定 的 数据 源 添加 一 个 新 的 连接 器 。 

好 消息 是 ， 通 常 这 不 会 有 太 大 阻碍 。Presto 团队 和 社区 正在 不 断 扩大 可 用 连接 器 的 列表 ， 
所 以 当 你 读 到 本 书 时 ， 这 个 列表 可 能 已 经 变 得 更 长 了 。 

连接 器 也 可 以 从 Presto 项 目 以 外 的 第 三 方 获得 。 这 包括 其 他 社区 成 员 和 Presto 用 户 编写 的 
连接 器 ， 它 们 还 没有 贡献 回来 ， 或 者 由 于 种 种 原因 不 能 贡献 出 来 。 

连接 器 也 可 以 从 数据 库 系 统 的 商业 供应 商 那 里 获得 ， 因 此 ， 询 问 你 想 查询 的 系统 的 所 有 者 


或 创建 者 是 个 好 主意 。Presto 社区 中 有 商业 供应 商 ， 如 Starburst， 他 们 将 Presto 与 支持 服 
务 和 扩展 程序 打包 在 一 起 销售 ， 其 中 也 包括 额外 的 连接 器 或 改进 过 的 连接 器 。 


























最 后 ， 你 必须 记 住 ，Presto 是 一 个 围绕 着 开源 项 目的 开放 社区 。 因 此 ， 你 可 以 一 一 我 们 也 
鼓励 你 一 一 去 查看 现 有 连接 器 的 代码 ， 并 根据 需要 创建 新 的 连接 器 。 理 想 状 况 下 ， 你 其 至 
可 以 参与 Presto 项 目 ， 贡 献 一 个 连接 器 给 该 项 目 ， 从 而 让 版 本 维护 和 使 用 变 得 更 简单 。 


























6.10 小结 


现在 你 已 经 了 解 了 Presto 可 以 访问 各 种 数据 源 的 强大 功能 。 无 论 你 访问 的 是 什么 数据 源 ， 
Presto 都 能 让 你 用 SQL 和 SQL 驱动 的 工具 查询 数据 。 尤 其 是 ， 你 学 习 了 关键 的 Hive 连接 
器 ， 它 用 于 查询 分 布 式 存储 ， 如 HDFS 或 云 存 储 系统 。 在 第 7 章 中 ， 你 可 以 详细 了 解 其 他 
一 些 使 用 广泛 的 连接 器 。 


所 有 连接 器 的 详细 文档 可 以 在 Presto 网 站 上 找到 ， 参 见 1.4.1 节 。 如 果 没 有 找到 想 要 的 内 
容 ， 你 甚至 可 以 与 社区 合作 ， 创 建 你 自己 的 连接 器 或 增强 现 有 的 连接 器 。 






































第 6 章 中 ， 你 学 习 了 Presto 提供 的 一 些 连接 器 以 及 如 何 配置 它们 ， 本 章 会 把 这 些 知 识 扩展 
到 一 些 比 较 复 杂 的 使 用 场景 和 连接 器 。 这 些 连 接 器 通常 需要 翻译 来 自 底 层 数 据 源 的 存储 模 
式 和 思想 ， 而 这 些 数据 源 并 不 容易 映射 到 SQL 和 Presto 的 面向 表 的 模型 上 。 























若 打算 通过 Presto 连接 并 用 SQL 查询 特定 的 系统 ， 你 可 以 直接 跳 到 对 应 章节 来 了 解 更 多 。 


。 7.1 节 ， 用 Phoenix 连接 到 Hbase。 

。 7.2 节 ， 键 值 存 储 连 接 器 示例 : Accumulo。 

。 7.3 节 ，Apache Cassandra 连接 器 。 

。 7.4 市 ， 流 系统 连接 器 示例 : Kafka。 

。 7.5 市 ， 文 档 存 储 连接 器 示例 : Elasticsearch。 





在 了 解 这 些 连接 器 之 后 ， 你 可 以 通过 学 习 7.6 节 中 的 联邦 查询 和 相关 的 ETL 用 法 来 进 一 
步 完 善 你 的 理解 。 

















7.1 用 Phoenix 连 接 HBase 

分 布 式 、 可 扩展 的 大 数据 存储 Apache HBase 构建 在 HDFS 之 上 ,但 用 户 并 不 一 定 通过 
Hive 连接 器 访问 低层 的 HDFS。Apache Phoenix 项 目 提 供 了 一 个 SQL 层 来 访问 HBase， 得 
益 于 Presto Phoenix 连接 器 ， 用 户 可 以 像 其 他 数据 源 一 样 从 Presto 访问 HBase 数据 库 。 


























和 之 前 一 样 ， 你 只 需要 一 个 catalog 文件 ， 比 如 etc/catalog/bigtables.properties。 


96 


connector .name=phoenix 
phoenix.connection-url=jdbc:phoenix:zookeeper1,zookeeper2:2181: /hbase 


连接 URL 是 指向 数据 库 的 JDBC 连接 串 。 它 包括 一 个 Apache ZooKeeper 节点 的 列表 ， 用 
于 发 现 HBase 节点 。 


Phoenix 的 schema 和 表 被 映射 到 Presto 的 schema 和 表 ， 可 以 用 以 下 Presto 语句 来 查看 : 


SHOW SCHEMAS FROM bigtable; 
SHOW TABLES FROM bigtable.example; 
SHOW COLUMNS FROM bigtable.examples.user; 


现在 你 可 以 查询 任何 HBase 表 ， 并 在 下 游 工 具 中 使 用 它们 ， 就 像 从 任何 Presto 的 其 他 数据 
源 取得 数据 一 样 。 

使 用 Presto 可 以 让 你 利用 其 水 平 扩展 的 性 能 优势 来 查询 HBase。 你 可 以 创建 任何 查询 来 
访问 HBase 和 其 他 catalog， 并 且 能 够 将 HBase 与 其 他 数据 源 的 数据 结合 起 来 进行 联邦 
查询 。 


7.2” 键 值 存储 连接 器 示例 : Accumulo 

Presto 包含 多 个 键 值 数据 存储 的 连接 器 。 键 值 存储 系统 用 于 管理 记录 存储 的 字典 ， 并 允许 
通过 唯一 的 键 来 检索 某 条 记录 。 想 想 散 列表 ， 其 中 的 记录 是 通过 一 个 键 来 检索 的 ， 这 条 记 
录 可 以 是 单 值 、 多 值 甚至 集合 。 


目前 有 几 种 键 值 存 储 系统 。 其 中 一 个 广泛 使 用 的 系统 是 开源 、 宽 列 存储 数据 库 Apache 
Cassandra， 它 有 一 个 Presto 连接 器 。 你 可 以 在 7.3 节 中 找到 更 多 信息 。 








我 们 现在 详细 讨论 另 一 个 例子 : Apache Accumulo。 它 是 一 个 性 能 优异 、 应 用 广泛 的 开源 
键 值 存储 ， 可 以 用 Presto 连接 器 进行 查询 ， 一 般 概 念 也 适用 于 其 他 的 键 值 存储 。 


受 Google 的 BigTable 的 启发 ，Apache Accumulo 是 一 个 有 序 的 分 布 式 键 值 存储 ， 用 于 可 扩 
展 的 存储 和 检索 。Accumulo 在 HDFS 上 存储 按键 排序 的 键 值 数据 。 


图 7-1 显示 了 Accumulo 中 ， 由 行 DD、 列 和 时 间 惟 组 成 的 一 个 三 元 组 如 何 构 成 键 。 键 首先 
按 行 ID 和 列 以 字典 序 升序 排序 ， 然 后 按时 间 惟 降序 排序 。 























图 7-1: Accumulo 中 的 一 个 键 值 对 

















Accumulo 可 以 借助 列 族 和 位 置 组 来 进一步 优化 。 大 部 分 的 优化 对 Presto 来 说 是 透明 
的 ， 但 了 解 SQL 查询 的 访问 模式 可 以 帮助 你 优化 Accumulo 的 表 结 构 。 这 与 为 任何 使 用 
Accumulo 的 其 他 应 用 程序 优化 表 一 样 。 


表 7-1 展示 了 一 个 关系 表 的 逻辑 表示 。 





表 7-1: Accumulo 中 数据 的 关系 或 逻辑 视图 





rowid flightdate flightnum origin dest 
1234 2019-11-02 2237 BOS DTW 


5678 2019-11-02 133 BOS SFO 


因为 Accumulo 是 键 值 存储 ， 所 以 它 在 磁盘 上 存储 这 种 数据 表示 方式 与 逻辑 视图 不 同 ， 如 
表 7-2 所 示 。 这 种 非 关 系 的 存储 方式 使 得 不 那么 容易 确定 Presto 如 何 从 中 读 取 数 据 。 





表 7-2: Accumulo 如 何 存储 数据 的 视图 





rowid column value 

1234 flightdate:flightdate 2019-11-02 
1234 flightnum:flightnum 2237 

1234 origin:origin BOS 

1234 dest:dest DTW 
5678 flightdate:flightdate 2019-11-02 
5678 flisghtnum:flightnum 133 

5678 origin:origin BOS 


5678 dest:dest SFO 


Presto Accumulo 连接 器 负责 将 Accumulo 数据 模型 映射 到 Presto 可 以 理解 的 关系 模型 。 








Accumnulo 使 用 HDFS 存储 数据 ， 并 利用 ZooKeeper 管理 表 的 元 数据 ， 如 图 7-2 所 示 。 


Apache Accumulo 
HDFS Apache ZooKeeper 


7-2: 由 分 布 式 Apache Accumulo、HDFS 和 Apache ZooKeeper 组 成 的 Accumulo 基本 体系 结构 














就 其 核心 而 言 ，Accumulo 是 一 个 分 布 式 系统 ， 它 由 一 个 主 节 点 和 多 个 tablet 服务 器 组 成 ， 
如 图 7-3 所 示 。tablet 服务 器 包含 并 暴露 tablet，tablet 是 一 个 表 的 水 平分 区 片段 。 客 户 端 直 
接连 接 到 tablet 服务 器 上， 从 而 扫描 需要 的 数据 。 














Apache Accumulo 


图 7-3: 具有 主 节点 和 多 个 tablet 服务 器 的 Accumulo 架构 














就 像 Accumulo 本 身 ，Presto Accumnulo 连接 器 也 会 用 到 ZooKeeper。 它 从 Accumnulo 使 用 的 
ZooKeeper 实例 中 读 取 所 有 信息 ， 如 表 、 视 图 、 表 属性 和 列 定义 等 。 


下 面 来 看 看 如 何 使 用 Presto 从 Accumulo 中 扫描 数据 。 在 Accumulo 中 ， 可 以 通过 使 用 
Scanner 对 象 从 表 中 读 取 键 对 。Scanner 从 表 中 的 某 个 特定 的 键 开 始 读 取 ， 然 后 在 另 一 个 键 
或 在 表 的 末尾 结束 。Scanner 可 以 被 配置 为 只 读 取 所 需 列 。 回 顾 一 下 RDBMS 连接 器 ， 只 
有 所 需 列 才 会 被 添加 到 生成 的 SQL 查询 中 ， 进 而 下 推 到 数据 库 。 


Accumulo 也 有 一 个 Batchscanner 对 象 的 概念 ， 用 于 从 Accumulo 读 取 多 个 范围 的 数据 。 
Accumulo 比 Scanner 高 效 ， 因 为 它 能 够 使 用 多 个 工作 节点 与 Accumulo 通信 ， 如 图 7-4 所 示 。 


用 户 首先 将 查询 提交 给 协调 器 ， 协 调 器 与 Accumulo 通信 ， 以 在 元 数据 中 确定 分 片 。 它 通 
过 从 Accumulo 可 用 的 索引 中 寻找 范围 来 确定 分 片 。Accumnulo 返回 索引 中 的 行 ID，Presto 
将 这 些 范围 保存 在 分 片 中 。 如 果 不 能 使 用 索引 ， 则 对 单个 tablet 中 的 所 有 范围 使 用 分 片 。 
最 后 ， 工 作 节 点 使 用 这 些 信 息 连 接 到 特定 的 tablet 服务 器 ， 并 从 Accumulo 中 并 行 拉 取 数 
据 ， 拉 取 数 据 是 通过 Batchscanner 进行 的 。 












































图 7-4: 多 个 工作 节点 并 行 访问 Accumulo 


一 旦 从 工作 节点 那里 拉 取 到 数据 ， 数 据 就 会 被 放 到 Presto 能 够 理解 的 关系 格式 中 ， 剩 下 的 
处 理工 作 便 由 Presto 完成 。 在 这 种 情况 下 ，Accumulo 被 当 作 数据 存储 ， 而 Presto 则 提供 
了 访问 Accumulo 数据 的 高 级 SQL 接口 。 
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如 果 你 自己 编写 一 个 应 用 程序 来 从 Accumulo 中 获取 数据 ， 那 么 你 会 写 出 类 似 下 面 的 Java 
片段 。 先 设置 要 扫描 的 范围 ， 然 后 定义 要 拉 取 的 列 : 


ArrayList<Range> ranges = new ArrayList<Range>(); 
ranges.add(new Range("1234" ) ) ; 
ranges.add(new Range("5678")); 


BatchScanner scanner = client.createBatchScanner("flights", auths, 10); 
scanner .setRangers(ranges); 

scanner.fetchColumn("flightdate"); 

scanner .fetchColumn("flightnum"); 

scanner.fetchColumn("origin"); 


for (Entry<Key,VaLue> entry : scanner) { 
// 填充 为 Presto 格 式 
} 
= 


裁剪 不 需要 读 取 的 列 的 概念 与 RDBMS 连接 器 类 似 。Accumulo 连接 器 并 不 下 推 SQL， 而 
是 使 用 Accumulo API 来 设置 要 拉 取 哪些 列 。 


7.2.1 使 用 Presto Accumulo 连 接 器 


要 使 用 Accumulo， 需 要 创建 一 个 catalog 属性 文件 (例如 etc/catalog/accumulo.properties)， 
该 文件 引用 Accumulo 连接 器 ， 并 配置 了 Accumulo 访问 方式 ， 包 括 到 ZooKeeper 的 连接 : 





Connector .name=accumulo 
accumulo.instance=accumulo 
accumulo.zookeepers=zookeeper .example.com:2181 
accumulo.username=user 
accumuylo.password=password 


还 是 用 之 前 那个 航班 的 例子 ， 让 我 们 用 Presto 在 Accumulo 中 创建 一 个 表 ， 可 以 使 用 Presto 
CLI 或 者 通过 JDBC 连接 到 Presto 的 RDBMS 管理 工具 : 








CREATE TABLE accumulo.ontime.flights ( 
rowid VARCHAR, 
flightdate VARCHAR, 
flightnum, INTEGER, 
origin VARCHAR 
dest VARCHAR 


); 


当 你 在 Presto 中 创建 这 个 表 时 ， 连 接 器 实际 上 在 Accumulo 中 创建 了 一 个 表 ， 并 在 ZooKeeper 
中 创建 了 关于 该 表 的 元 数据 。 


es Accumulo 中 的 列 族 是 一 种 优化 机 制 ， 用 于 应 用 程序 经 常 一 起 访问 
的 那些 列 。 通 过 定义 列 族 ，Accumulo 可 以 安排 列 在 磁盘 上 的 存储 方式 ， 使 经 常 共同 访问 








的 列 作 为 列 族 的 一 部 分 ， 存 放 在 一 起 。 如 有 果 想 创建 一 张 使 用 列 族 的 表 ， 则 可 以 在 WITH 语句 
中 将 其 指定 为 表 属 性 。 





CREATE TABLE accumulo.ontime.flights ( 
rowid VARCHAR, 
flightdate VARCHAR, 
flightnum, INTEGER, 
origin VARCHAR 
dest VARCHAR 
) 
WITH 
column_mapping = 'origin:location:origin,dest:location:dest' 


)s 


通过 使 用 column_mapping， 你 可 以 用 列 修饰 符 origin 和 dest 来 定义 列 族 的 位 置 ， 而 这 两 
个 列 的 名 称 与 Presto 中 的 列 名 相同 。 


当 不 使 用 column_mapping 表 属 性 时 ，Presto 会 自动 生成 与 Presto 列 名 相同 的 
列 族 和 列 修饰 符 。 可 以 通过 在 表 上 运行 DESCRIBE 命令 来 观察 Accumulo 列 族 
和 列 修饰 符 。 























Presto Accumulo 连接 器 支持 INSERT 语句 。 


INSERT INTO accumulo.ontime.flights VALUES 
(2232, '2019-10-19', 118, 'JFK', 'SFO'); 


这 是 一 种 方便 的 数据 插入 方式 ， 但 目前 从 Presto 写 入 Accumulo 的 数据 吞吐 量 很 低 。 为 了 
获得 更 好 的 性 能 ， 你 需要 使 用 原生 的 Accumulo API。 在 Presto 之 外 ，Accumulo 连接 器 有 
工具 可 以 完成 性 能 更 高 的 数据 插入 。 可 以 在 Presto 文档 中 找到 更 多 关于 使 用 单独 工具 加 载 
数据 的 信息 。 


我 们 在 前 面 的 例子 中 创建 的 表 是 一 个 内 部 表 。Presto Accumulo 连接 器 支持 内 部 表 和 外 部 
表 。 这 二 者 间 的 唯一 区 别 是 ， 删 除外 部 表 只 删除 元 数据 而 不 是 数据 本 身 。 外 部 表 可 以 让 你 
创建 已 存在 于 Accumulo 中 的 Presto 表 。 此 外 ， 如 果 需 要 改变 表 的 schema， 如 添加 一 个 列 ， 
你 可 以 简单 地 删除 表 ， 然 后 在 Presto 中 重新 创建 ， 而 不 会 丢失 数据 。 值 得 注意 的 是 ， 当 每 
一 行 的 列 集合 不 一 定 要 一 致 时 ，Accumnulo 可 以 支持 这 种 表 结 构 变更 。 


使 用 外 部 表 需 要 多 做 一 些 工作 ， 因 为 数据 已 经 以 特定 的 方式 存储 了 。 例 如 ， 在 使 用 外 部 表 
时 ， 必 须 使 用 colunn_mapping 表 属 性 。 你 必须 在 创建 表 时 将 external 属性 设置 为 true。 


























CREATE TABLE accumulo.ontime.flights ( 
rowid VARCHAR, 
flightdate VARCHAR, 
flightnum, INTEGER, 
origin VARCHAR 
dest VARCHAR 





) 
WITH 
external = true， 
column_mapping = 'origin:Location:origin,dest:Location:dest' 


好 


7.2.2 Accumulo 中 的 谓词 下 推 


在 Accumulo 连接 器 中 ，Presto 可 以 利用 Accumulo 内 置 的 二 级 索引 。 为 了 实现 这 一 点 ， 
Accumulo 连接 器 需要 在 每 个 tablet 服务 器 上 建立 一 个 自 定义 的 服务 器 端 迭 代 器 。 该 迭代 器 
以 JAR 文件 的 形式 分 发 ， 你 必须 将 其 复制 到 每 个 tablet 服务 器 上 的 $ACCUMULO_HOME/ 
lib/ext 目录 中 。 你 可 以 在 Presto 文档 中 找到 具体 做 法 。 

















Accumulo 中 的 索引 用 于 查询 行 ID, 行 ID 用 来 读 取 实际 表 中 的 值 。 让 我 们 来 看 一 个 例子 。 


SELECT flightnum, origin 

FROM flights 

WHERE flightdate BETWEEN DATE '2019-10-01' AND 2019-11-05' 

AND origin = 'BOS'; 
在 没有 索引 的 情况 下 ，Presto 会 从 Accumulo 中 读 取 整个 数据 集 ， 然 后 在 Presto 内 部 进行 
过 滤 。 要 读 取 的 Accumulo 范围 被 分 配给 各 个 工作 节点 ， 这 里 的 范围 是 整个 tablet 的 范围 。 
如 果 有 索引 (如 表 7-3 中 的 示例 索引 ) ， 处 理 范 围 的 数量 就 可 以 大 大 减少 。 


表 7-3: 航班 表 上 的 索引 示例 


2019-08-10 flightdate_ flightdate:2232 0] 






































ey 








2019-10-19 flightdate flightdate:2232 吕 
2019-11-02 flightdate flightdate:1234 0D 
2019-11-02 flightdate flightdate:5478 0D 
2019-12-01 flightdate flightdate:1111 0D 
SFO origin origin:2232 0 
BOS origin origin:3498 0 
BOS origin origin:1234 0 
BOS origin origin:5678 0 
ATL origin origin:1111 0 


协调 器 使 用 WHERE 子 句 的 过 滤 条 件 flightdate BETWEEN DATE '2019-10-01' AND 2019-11-05' 
AND origin = 'B0S' 来 扫描 索引 以 获得 表 中 的 行 DD， 然 后 将 这 些 行 ID 打包 成 分 片 ， 工 作 
节点 在 随后 访问 Accumulo 中 的 数据 时 会 使 用 。 在 我 们 的 例子 中 ，fLightdate 和 origin 上 
有 二 级 索引 ， 我 们 收集 了 {2232, 1234, 5478} 和 {3498, 1234, 5678} 两 个 集合 的 行 ID 。 把 每 
个 索引 中 提取 出 的 行 ID 做 交集 ， 可 以 得 出 我 们 只 需要 扫描 行 ID {1234，5678}。 然 后 将 这 
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个 范围 放 入 分 片 中 ， 由 工作 市 点 进行 处 理 ， 这 样 就 可 以 直接 访问 各 个 值 ， 数 据 详 细 视 图 如 
表 7-4 中 所 示 。 


表 7-4: 出 发 地 、 目 的 地 及 其 他 值 的 详细 视图 











Rowid Column Value 
2232 flightdate:flightdate 2019-10-19 
2232 flightnum:flightnum 118 

2232 origin:origin JFK 

2232 dest:dest SFO 

1234 flightdate:flightdate 2019-11-02 
1234 flightnum:flightnum 2237 

1234 origin:origin BOS 

1234 dest:dest DTW 

5678 flightdate:flightdate 2019-11-02 
5678 flightnum:flightnum 133 

5678 origin:origin BOS 

5678 dest:dest SFO 

3498 flightdate:flightdate 2019-11-10 
3498 flightnum:flightnum 133 

3498 origin:origin BOS 

3498 dest:dest SFO 


为 了 利用 谓词 下 推 的 优势 ， 需 要 在 想 要 下 推 谓词 的 列 上 建立 索引 。 通 过 Presto 连接 器 ， 可 
以 使 用 index_columns 表 属 性 在 列 上 建立 索引 。 


CREATE TABLE accumulo.ontime.flights ( 
rowid VARCHAR, 
flightdate VARCHAR, 
flightnum, INTEGER, 
origin VARCHAR 
dest VARCHAR 








) 
WITH 


index_columns = 'flightdate,origin' 
); 
在 本 市 中 ， 你 学 习 了 键 值 存储 以 及 在 Presto 中 如 何 使 用 标准 SQL 来 查询 它 。 接 下 来 看 另 一 
个 可 以 从 Presto 中 受益 的 、 使 用 更 广泛 的 系统 : Apache Cassandra。 





7.3 Apache Cassandra 连 接 器 


Apache Cassandra 是 一 个 分 布 式 的 、 支 持 海量 数据 的 宽 列 存储 。Cassandra 的 容错 架构 和 线 
性 扩展 性 使 其 得 到 了 广泛 的 应 用 。 
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在 Cassandra 中 处 理 数据 的 典型 方法 是 使 用 为 Cassandra 设计 的 自 定 义 查询 语言 : 
Cassandra 查询 语句 (Cassandra Query Language，CQL)。 虽 然 CQL 从 表面 上 看 很 像 SQL， 
但 它 实 际 上 缺少 SQL 的 许多 有 用 功能 ， 如 Join。 总 的 来 说 ， 它 和 SQL 相当 不 同 ， 无 法 直接 
使 用 依赖 SQL 的 标准 工具 。 

















然而 ， 借 助 Cassandra 连接 器 ， 你 可 以 对 Cassandra 中 的 数据 进行 SQL 查询 。 最 小 配置 就 
是 一 个 简单 的 catalog 文件 ， 比 如 etc/catalog/sitedata.properties。 这 里 的 Cassandra 集群 记录 
了 一 个 网 站 上 所 有 的 用 户 交 互 ， 例 如 : 


connector .name=cassandra 
cassandra.contact-points=sitedata.example.com 





有 了 这 个 简单 的 配置 ， 用 户 就 可 以 查询 Cassandra 中 的 数据 。Cassandra 中 的 任何 键 空间 
(例如 cart) 都 会 在 Presto 中 作为 一 个 schema 暴露 出 来 ， 现 在 可 以 用 普通 的 SQL 查询 表 
了 ， 比 如 users: 





SELECT * FROM sitedata.cart.users; 





该 连接 器 支持 许多 配置 属性 ， 可 以 让 你 配置 调整 Cassandra 集群 的 catalog， 以 及 启用 认证 
和 连接 的 TLS 等 。 


7.4 流 式 系统 连接 器 示例 : Kafka 


流 式 系统 和 发 布 - 订 阅 (pub/sub) 系统 旨 在 处 理 实 时 数据 源 。 例 如 ，LinkedIm 创造 的 
Apache Kafka 便 是 一 个 高 吞吐 量 、 低 时 延 的 平台 。 发 布 者 将 销 息 写 到 Kafka 上 ， 供 订阅 者 
消费 。 这 样 的 系统 一 般 用 于 系统 之 间 的 数据 管道 。Presto Kafka 连接 器 用 于 从 Kafka 中 读 取 
数据 。 目 前 你 不 能 使 用 该 连接 器 来 发 布 数据 。 


借助 该 连接 器 ， 可 以 使 用 SQL 查询 Kafka 主题 上 的 数据 ， 其 至 可 以 将 其 与 其 他 数据 进行 
Join 操作 。Presto 的 典型 使 用 场景 是 ， 对 实时 Kafka 主题 流 的 ad-hoc 查询 ， 以 检查 和 更 好 
地 了 解 当 前 系统 的 状态 和 数据 流 。 使 用 Presto 可 以 让 数据 分 析 师 和 其 他 用 户 更 容易 地 访问 
Kafka， 因 为 他 们 通常 不 具备 任何 Kafka 的 背景 知识 ， 但 知道 如 何 编写 SQL 查询 。 

















Presto 与 Kafka 的 另 一 个 不 太 常见 的 使 用 场景 是 从 Kafka 迁移 数据 。 使 用 CREATE TABLE AS 
或 INSERT SELECT 语句 ， 可 以 从 Kafka 主题 中 读 取 数据 ， 使 用 SQL 对 数据 进行 变换 ， 然 后 
将 其 写 入 HDFS、S3 或 其 他 存储 。 


因为 Kafka 是 一 个 流 式 系统 ， 所 以 随 着 新 数据 的 到 来 ， 暴 露 的 主题 会 不 断 改 变 其 内 容 。 使 
用 Presto 查询 Kafka 主题 时 必须 考虑 到 这 一 点 。 使 用 Presto 将 数据 迁移 到 HDFS 或 其 他 有 具 
有 永久 存储 的 数据 库 系 统 中 ， 可 以 保存 流 过 Kafka 主题 的 数据 。 


























一 旦 数据 在 目标 数据 库 或 存储 中 永久 可 用 ，Presto 就 可 以 用 来 将 其 暴露 给 分 析 工 具 ， 如 
Apache Superset， 参 见 11.1 节 。 


使 用 Kafka 连接 器 和 其 他 连接 器 一 样 。 创 建 一 个 使 用 Kafka 连接 器 的 catalog 文件 (例如 
etc/catalog/trafficstream.properties)， 配 置 其 他 必要 的 细 市 ， 并 指向 你 的 Kafka 集群 : 





connector .name=kafka 
kafka.table-names=web.pages ,web.users 
kafka.nodes=trafficstream.example.com:9092 








现在 ，Kafka 里 的 web.pages 和 web.user 主题 都 可 以 在 Presto 中 以 表 的 形式 出 现 。 在 任何 
时 候 ， 该 表 都 会 显示 出 整个 Kafka 主题 和 当前 主题 中 的 所 有 消息 。 主 题 中 的 每 一 条 消息 都 
会 在 Presto 的 表 中 显示 为 一 行 。 这 些 数 据 现在 可 以 在 Presto 上 使 用 catalog、schema 和 表 名 
进行 SQL 查询 。 





SELECT * FROM trafficstream.web.pages; 
SELECT * FROM trafficstream.web.users; 


本 质 上 ， 你 可 以 通过 简单 的 SQL 查询 实时 查看 Kafka 主题 上 的 数据 。 


人 如 HDFS catalog， 则 可 以 从 一 个 简单 的 CREATE TABLE 
AS (CTAS) 命令 开始 : 


CREATE TABLE hdfs.web.pages 
WITH ( 
format = 'ORC', 
partitioned_by = ARRAY[ 'view_date '] 


) 
AS 


SELECT * 
FROM trafficstream.web.pages; 


一 旦 有 了 这 个 表 ， 你 就 可 以 定期 运行 INSERT 查询 ， 向 其 中 插入 更 多 的 数据 : 


INSERT INTO hdfs.web.pages 
SELECT 兴 
FROM trafficstream.web.pages; 


为 了 避免 重复 复制 ， 你 可 以 跟踪 Kafka 中 的 一 些 由 连接 器 暴露 的 内 部 列 ， 具 体 来 说 ， 可 以 


使 用 _partition id、_partition offset、_segment_start、_segment_end 和 _segment_count 


列 。 定 期 运行 查询 的 具体 设置 取决 于 Kafka 中 关于 删除 消息 的 配置 以 及 运行 查询 的 工具 ， 
例如 Apache Airflow， 参 见 11.3 节 。 





Kafka 主题 以 表 的 形式 暴露 ， 其 映射 和 包含 的 消息 可 以 用 一 个 JSON 文件 来 定义 ， 每 个 主 
题 的 映射 可 以 在 etc/kafka/schema.tablename.json 中 定义 。 具 体 到 前 面 的 例子 ， 可 以 在 etc/ 
kafka/web.pages.json 中 定义 映射 。 








不 同 主题 内 的 Kafka 消息 可 能 使 用 不 同 的 格式 ，Kafka 连接 器 包括 了 最 常见 格式 的 解码 器 ， 
如 Raw、JSON、CSYV 和 Avro 等 。 





有 关 配 置 属 性 、 映 射 和 其 他 内 部 列 的 详细 信息 可 在 Presto 文档 中 找到 ， 参 见 1.4.3 市 。 











将 Presto 与 Kafka 一 起 使 用 ， 既 可 以 为 Kafka 的 数据 流 开 局 新 的 分 析 与 洞察 能 力 ， 也 定义 了 
Presto 另 一 个 有 价值 的 用 途 。 另 一 个 Presto 支持 的 类 似 用 途 的 流 处 理 系统 是 Amazon Kinesis'。 


7.5 文档 存储 连接 器 示例 : Elasticsearch 


Presto 包含 一 些 知名 文档 存储 系统 的 连接 器 ， 如 Elasticsearch 或 MongoDB。 这 些 系统 支持 
存储 和 检索 JSON 文档 形式 的 信息 。Elasticsearch 更 适合 于 索引 和 搜索 文档 ， 而 MongoDB 
则 是 一 个 通用 的 文档 存储 。 








7.5.1 概述 

Presto 连接 器 允许 用 户 使 用 SQL 访问 这 些 系 统 并 查询 其 中 的 数据 ， 即 使 这 些 系 统 设 有 原生 
SQL 访问 。 
Elasticsearch 集群 经 常用 于 存储 日 志 数 据 或 其 他 事件 流 ， 以 便 长 期 存储 ， 甚 至 永久 存储 。 
这 些 数据 集 都 是 系统 在 运行 中 和 各 种 场景 下 产生 的 日 志 数 据 ， 往 往 体 量 非常 大 ， 这 些 日 志 
可 以 帮 我 们 更 好 地 了 解 系统 。 














Elasticsearch 和 Presto 是 一 个 强大 且 性 能 优异 的 组 合 ， 因 为 这 两 个 系统 都 可 以 横向 扩展 。 
Presto 通过 将 一 个 查询 分 解 并 在 集群 中 的 许多 工作 节点 上 运行 来 进行 扩展 。 





Elasticsearch 通常 在 自己 的 集群 上 运行 ， 也 可 以 横向 扩展 。 它 可 以 跨 多 个 节点 对 索引 分 片 ， 
并 以 分 布 式 方式 运行 任何 搜索 操作 。Elasticsearch 集群 的 性 能 调 优 是 一 个 独立 的 话题 ， 需 
要 了 解 搜索 索引 中 的 文档 数量 、 集 群 中 的 节点 数量 、 副 本 集合 以 及 分 片 配 置 等 细节 。 


然而 ， 从 客户 端的 角度 来 看 (也 即 从 Presto 的 角度 来 看 ) ， 这 一 切 都 是 透明 的 ， 只 需 用 服 
务 器 的 URL 来 暴露 Elasticsearch 集群 即 可 。 


7.5.2 配置 和 使 用 方法 
配置 Presto 访问 Elasticsearch 是 通过 创建 一 个 catalog 文件 (如 etc/catalog/search.properties ) 
来 进行 的 。 


connector .name=elasticsearch 
elasticsearch.host=searchcluster .example.com 








注 1: 最 新 支持 的 流 处 理 系 统 还 有 Apache Pulsar。 译 者 注 
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这 个 配置 依赖 于 端口 、schema 以 及 其 他 细节 的 默认 值 ， 但 对 于 查询 集群 来 说 已 经 足够 了 。 
该 连接 器 开 箱 即 支 持 Elasticsearch 的 众多 数据 类 型 。 它 可 以 自动 分 析 每 个 索引 ， 将 每 个 索 
引 配 置 为 表 ， 在 名 为 default 的 schema 中 暴露 访 表 ,创建 必要 的 姓 套 结构 和 行 类 型 ， 并 在 
Presto 中 全 部 暴露 出 来 。 索 引 中 的 任何 文档 都 会 自动 对 应 到 Presto 的 表 结构 中 。 例 如 ， 在 
catalog 的 default schema 中 ， 一 个 名 为 server 的 索引 会 自动 成 为 一 张 表 ， 你 可 以 在 Presto 
中 查询 该 结构 的 更 多 信息 : 











DESCRIBE search.default.server; 


用 户 可 以 立即 开始 查询 索引 。 可 以 用 Information Schema 或 DESCRIBE 命令 来 了 解 每 个 索引 
/schema 所 创建 的 表 和 字段 。 





Elasticsearch 的 schema 中 的 字段 通常 包含 多 个 值 ， 类 似 数 组 。 如 果 自 动 检 测 不 能 请 足 
要 求 ， 可 以 添加 一 个 字段 属性 来 定义 索引 映射。 此 外 ，_source 隐藏 字段 包含 了 来 自 
Elasticsearch 的 源 文档 ， 如 果 需 要 的 话 ， 可 以 使 用 JSON 文档 解析 功能 (参见 9.15 节 ) 以 
及 集合 数据 类 型 (参见 8.9.1 节 )。 在 处 理 Elasticsearch 集群 中 的 文档 时 ， 这 些 功 能 通常 会 
有 帮助 ， 因 为 这 些 文档 主要 是 JSON 文档 。 


在 Elasticsearch 中 ， 你 可 以 将 一 个 或 多 个 索引 中 的 数据 (包括 过 滤 后 的 数据 ) 暴露 成 别名 
(alias)。Presto 连接 器 支持 使 用 别名 ， 并 像 其 他 索引 一 样 以 表 的 形式 暴露 出 来 。 















































7.5.3 查询 处 理 


当 你 从 Presto 发 出 查询 到 Elasticsearch 时 ， 除 了 Elasticsearch 本 身 的 集群 ，Presto 也 会 利用 
其 自身 的 集群 架构 来 进一步 提升 性 能 。 


Presto 可 以 查询 Elasticsearch 以 了 解 所 有 的 Elasticsearch 分 片 (shard) ， 之 后 在 创建 查询 计 
划 时 使 用 这 些 信息 。 它 将 查询 分 为 多 个 单独 的 切片 〈split) ， 这 些 切 片 会 并 发 地 向 特定 的 分 
片 发 起 单独 的 请 求 。 一 旦 结果 和 返回， 就 会 在 Presto 中 进行 合并 ， 然 后 返回 给 用 户 。 这 意味 
着 ，Presto 与 Elasticsearch 结合 后 不 仅 可 以 使 用 SQL 进行 查询 ， 而 且 比 Elasticsearch 本 身 
的 性 能 更 好 。 

另外 需要 注意 的 是 ， 有 一 种 典型 的 Elasticsearch 集群 ， 它 运行 在 负载 均衡 器 后 台 ， 只 通过 
DNS 主机 名 暴露 出 来 ， 而 上 述 提 到 的 单独 连接 到 特定 数据 分 片 的 行为 也 同样 适用 于 这 样 的 
集群 。 


7.5.4 ”全 文 搜 索 
Elasticsearch 连接 器 的 另 一 个 强大 功能 是 支持 例文 搜索 。 它 允许 你 在 Presto 发 出 的 SQL 查 
询 中 使 用 Elasticsearch 查询 字符 串 。 




















例如 ， 想 想 有 一 个 索引 包含 某 个 网 站 所 有 博客 文章 ， 这 些 文档 存储 在 blogs 索引 中 。 也 许 
这 些 文章 由 许多 字段 组 成 ， 如 title、intro、post、summary 和 authors 等 。 借 助 全 文 搜 
索 ， 你 就 可 以 写 一 个 简单 的 查询 ， 在 所 有 字段 中 搜索 某 个 特定 的 词 ， 如 presto: 





SELECT * FROM "blogs: +presto"; 


Elasticsearch 的 查询 字符 串 语 法 支持 对 不 同 的 搜索 词 进行 加 权 ， 以 及 其 他 适用 于 全 文 搜索 
的 功能 。 


7.5.5 总结 


Amazon Elasticsearch Service 特有 的 一 个 强大 功能 是 支持 AWS 身份 和 访问 管理 。 有 关 此 配 
置 的 更 多 详细 信息 ， 以 及 使 用 TLS 和 Presto 文档 中 其 他 技巧 确保 与 Elasticsearch 集群 的 连 
接 ， 参 见 1.4.2 节 。 





























使 用 Presto 与 Elasticsearch， 你 可 以 通过 一 些 强大 的 、 可 以 支持 SQL 的 工具 来 分 析 索 引 中 
的 丰富 数据 。 你 可 以 手动 编写 查询 ， 也 可 以 利用 丰富 的 分 析 工 具 ， 这 让 你 更 好 地 理解 集群 
中 的 数据 。 


利用 Presto MongoDB 连接 器 将 MongoDB 连接 到 Presto 也 具有 类 似 的 优势 。 


7.6 ”Presto 中 的 联邦 查询 


在 阅读 了 1.3 节 中 关于 Presto 的 所 有 使 用 场景 ， 并 了 解 了 Presto 中 所 有 的 数据 源 和 可 用 的 
连接 器 之 后 ， 你 现在 可 以 了 解 更 多 关于 Presto 中 联邦 查询 的 信息 了 。 联 邦 查询 是 指 访问 多 
个 数据 源 中 数据 的 查询 。 


这 种 查询 可 用 于 将 来 自 多 个 RDBMS 数据 库 的 内 容 和 信息 结合 在 一 起 ， 比 如 将 运行 在 
PostgreSQL 上 的 企业 后 台 应 用 程序 数据 库 和 MySQL 上 的 Web 应 用 程序 数据 库 相 结合 ， 也 
可 以 将 PostgreSQL 上 的 数据 仓库 与 用 同样 运行 在 PostgreSQL 或 其 他 地 方 的 源 数据 相 结合 来 
查询 。 然 而 ， 更 强大 的 例子 是 ， 可 以 将 来 自 RDBMS 的 查询 与 运行 在 其 他 非 关 系 系统 上 的 
查询 结合 起 来 。 数 据 仓 库 中 的 数据 与 对 象 存储 中 的 数据 可 以 结合 起 来 ， 后 者 存储 着 海量 的 
Web 应 用 程序 数据 。 还 可 以 将 数据 与 键 值 存储 或 NoSQL 数据 库 中 的 内 容 相 关联 。 对 象 存储 
数据 湖 突 然 可 以 用 SQL 暴露 出 来 了 ， 这 些 信 息 便 成 了 你 更 好 地 理解 整体 数据 的 基础 。 


联邦 查询 可 以 帮助 你 真正 地 理解 这 些 系统 中 的 数据 。 


在 下 面 的 例子 中 ， 你 将 了 解 到 将 分 布 式 存储 中 的 数据 与 RDBMS 中 的 数据 联接 起 来 的 使 用 
场景 。 必 要 的 设置 信息 参见 1.4.8 节 。 





















































有 了 这 些 数据 ， 你 可 以 通过 SQL 查询 提出 诸如 “飞机 每 年 的 平均 延误 时 间 是 多 少 ” 这 样 的 
问题 。 





108 | 第 7 章 


SELECT avg(depdeLayminutes) AS deLay，year 
FROM flights_orc 


GROUP BY year 


ORDER BY year DESC; 


还 可 以 问 :“2 月 某 周 中 飞 离 波 士 顿 的 最 佳 日 子 是 哪 一 天 ? ” 


SELECT dayofweek, avg(depdelayminutes) AS delay 


FROM flights_or 


C 


WHERE month=2 AND origincityname LIKE “%Boston% 
GROUP BY dayofmonth 
ORDER BY dayofweek; 


因为 多 数据 源 和 联邦 查询 的 概念 是 Presto 的 一 部 分 ， 所 以 我 们 鼓励 你 建立 一 个 环境 并 探索 


数据 ， 这 些 查询 能 够 启发 你 





自己 创建 更 多 的 查询 。 我 们 使 用 航空 公司 数据 上 的 两 个 示例 


分 析 查 询 来 演示 Presto 中 的 查询 联合 。 我 们 提供 的 设置 使 用 存储 在 S3 中 的 数据 ， 并 配置 


Presto 使 用 Hive 连接 器 。 


he ss 


或 Google Cloud Storage 中 ， 并 使 用 Hive 连接 器 来 查询 数据 。 





公司 : 


SELECT uniquyuecarrier, count(*) AS ct 


在 第 一 个 示例 查询 中 ， 我 们 希 


FROM flights_orc 
GROUP BY uniquecarrier 
ORDER BY count(*) DESC 


LIMIT 10; 
uniquecarrier 


EV 
(10 rows) 


24096231 
21598986 
18942178 
16735486 
16377453 
10585760 
8888536 
7270911 
6877396 
5391487 











望 Presto 从 HDFS 中 的 数据 中 返回 航班 最 多 的 前 10 家 航空 














虽然 以 上 查询 为 我 们 提供 了 航班 数 最 多 的 前 10 家 航空 公 
uniquecarrier 列 中 缩写 的 含义 。 如 果 有 一 个 列 可 以 提供 完整 的 航空 公司 名 称 而 不 是 缩写 
就 更 好 了 ， 但 我 们 查询 的 航空 公司 数据 产 中 并 不 包含 这 样 的 信息 。 如 有 果 有 男 一 个 数据 源 包 
含 这 些 信息 ， 我 们 就 可 以 将 该 数据 源 与 之 结合 起 来 ， 从 而 返回 更 易于 理解 的 结果 。 


让 我 们 来 看 看 另 一 个 例子 。 在 这 里 ， 我 们 希 














司 的 结果 ， 但 这 需要 你 理解 



































望 Presto 能 返回 HH 


发 次 数 最 多 的 前 10 个 机 场 : 





SELECT origin, count(*) AS ct 
FROM flights_orc 

GROUP BY origin 

ORDER BY count(*) DESC 


LIMIT 10; 
origin | ct 

ee pr 
ATL | 8867847 
ORD | 8756942 
DFW | 7601863 
LAX | 5575119 
DEN | 4936651 
PHX | 4725124 
IAH | 4118279 
DTW | 3862377 
SFO | 3825008 
LAS | 3640747 
(10 rows) 


和 前 面 的 查询 一 样 ， 结 果 需 要 一 些 领 域 的 专业 知识 。 例 如 ， 你 需要 了 解 origin 这 一 列 所 包 
含 的 机 场 代 码 。 这 些 代 码 对 于 缺乏 专业 知识 的 人 来 说 是 没有 意义 的 。 

让 我 们 通过 与 关系 数据 库 中 的 附加 数据 相 结 合 的 方式 来 增强 结果 。 在 我 们 的 例子 中 使 用 的 
是 PostgreSQL， 但 类 似 的 步骤 也 适用 于 任何 关系 数据 库 。 


与 航空 公司 数据 一 样 ， 我 们 的 GitHub 仓库 包含 了 在 关系 数据 库 中 创建 和 加 载 表 的 设置 ， 
以 及 如 何 配 置 Presto 连接 器 来 访问 它 。 我 们 配置 Presto， 使 之 可 以 从 PostgreSQL 数据 库 中 
查询 额外 的 航空 公司 数据 。PostgreSQL 中 的 表 carrier 提供 了 航空 公司 代码 与 航空 公司 名 
称 之 间 的 映射 。 你 可 以 在 我 们 的 第 一 个 查询 示例 中 使 用 这 些 附加 数据 。 


我 们 来 看 看 PostgreSQL 中 的 表 carrier。 














SELECT * FROM carrier LIMIT 10; 


code | description 

a a 攻 昌 区 区 下 区 和 
02Q | Titan ALrways 

04Q | Tradewind Aviation 

05Q | Comlux Aviation, AG 

06Q | Master Top Linhas Aereas Ltd. 

907Q | Flair Airlines Ltd. 

09Q | Swift Air, LLC 

0BQ | DCA 

90CQ | ACM AIR CHARTER GmbH 

90GQ | Inter IsLand Airways, d/b/a Inter IsLand Air 
OHQ | Polar Airlines de Mexico d/b/a Nova Air 

(10 rows) 


这 个 表 包 含 了 代码 (code) 列 和 描述 (description) 列 。 利 用 这 些 信息 ， 我 们 可 以 将 第 一 
个 例子 查询 flights_orc 表 改 为 与 PostgreSQL 的 carrier 表 中 的 数据 进行 Join 操作 。 





SELECT f.uniquecarrier, c.description, count(*) AS ct 


FROM hive.ontime.flights_orc f, 
postgresql.airline.carrier c 

WHERE c.code = f.uniquecarrier 

GROUP BY f.uniquecarrier, c.description 

ORDER BY count(*) DESC 


LIMIT 103 

uniquecarrier | description 

pe eR a 
WN | Southwest Airlines Co. 

DL | Delta Air Lines Inc. 

AA | American Airlines Inc. 

US | US Airways Inc. 

UA | United Air Lines Inc. 

NW | Northwest Airlines Inc. 

CO | Continental ALr Lines Inc. 
00 | SkyWest Airlines Inc. 

MQ | Envoy Air 

EV | ExpressJet Airlines Inc. 
(10 rows) 


24096231 
21598986 
18942178 
16735486 
16377453 
10585760 
8888536 
7270911 
6877396 
5391487 


看 ! 现在 我 们 编写 了 一 个 单一 的 SQL 查询 ， 将 S3 和 PostgreSQL 中 的 数据 进行 了 联邦 查 
询 ， 从 而 提供 了 更 有 价值 的 数据 结果 。 我 们 无 须知 道 或 再 去 查找 航空 公司 的 代码 ， 而 是 在 


结果 中 直接 呈现 了 航空 


在 查询 中 ， 引 用 表 时 必须 使 用 完全 限定 名 称 *"。 当 利用 USE 命令 来 设置 默认 的 catalog 和 
schema 时 ， 未 限定 的 表 名 会 链接 到 该 catalog 和 schema 中 。 但 是 ， 当 











公司 名 称 。 


catalog 和 schema 时 ， 表 名 必须 是 限定 的 ， 否 则 ， 


中 找到 它 ， 并 返回 错误 。 总 之 ， 如 果 你 是 在 默认 catalog 和 schema 中 查询 表 ， 
之 外 的 数据 源 时 ， 建 议 使 用 完全 限制 名 称 。 


个 例子 中 它 是 查询 的 一 部 分 : 


名 进行 
接 下 来 看 一 下 PostgreSQL 中 的 表 airport， 





ut 








完全 限定 ， 但 当 引 用 默认 范 











在 第 二 


Presto 会 试 医 


SELECT code, name, city FROM airport LIMIT 10; 














当 你 需要 在 外 部 查询 











及 | 








code | name | city 
a SE TE EO SR 
01A | Afognak Lake Airport | Afognak Lake, AK 
03A | Bear Creek Mining Strip | Granite Mountain, AK 
04A | Lik Mining Camp | Lik, AK 
05A | Little Squaw Airport | Little Squaw, AK 
06A | Kizhuyak Bay | Kizhuyak, AK 
07A | Klawock SeapLane Base | KLawock，AK 
O08A | Elizabeth IsLand ALrport | Elizabeth IsLand，AK 
09A | Augustin IsLand | Homer , AK 
1B1 | CoLumbia County | Hudson, NY 
104 | Grand Canyon West | Peach Springs，AZ 
(10 rows) 

注 2: 即 带 有 catalog、schema 的 表 名 。 一 一 译 者 注 


在 默认 的 catalog 和 schema 
则 无 须 对 表 
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看 一 下 PostgreSQL 中 的 这 个 数据 ， 你 会 发 现 code 列 可 以 用 来 与 fLight_orc 表 的 第 二 个 
询 Join。 这 样 ， 你 就 可 以 利用 airport 表 中 的 附加 信息 与 查询 结合 来 提供 更 多 的 细 市 : 

















SELECT f.origin, c.name, c.city, count(*) AS ct 

FROM hive.ontime.flights_orc f, 
postgresql.airline.airport c 

WHERE c.code = f.origin 

GROUP BY origin, c.name, c.city 

ORDER BY count(*) DESC 


LIMIT 10; 

origin | name | city | <€t 
-------- 4 
ATL | Hartsfield-Jackson Atlanta International | Atlanta, GA | 8867847 
ORD | Chicago OHare International | Chicago, IL | 8756942 
DFW | Dallas/Fort Worth International | Dallas/Fort Worth, TX | 7601863 
LAX | Los Angeles International | Los Angeles, CA | 5575119 
DEN | Denver International | Denver, CO | 4936651 
PHX | Phoenix Sky Harbor International | Phoenix, AZ | 4725124 
IAH | George Bush Intercontinental/Houston | Houston, TX | 4118279 
DTW | Detroit Metro Wayne County | Detroit, MI | 3862377 
SFO | San Francisco International | San Francisco, CA | 3825008 
LAS | McCarran International | Las Vegas, NV | 3640747 
(10 rows) 











看 ! 和 第 一 个 例子 一 样 ， 我 们 可 以 通过 跨 两 个 不 同 的 数据 源 的 Join， 提 供 更 多 有 意义 的 信 
息 。 这 里 可 以 添加 机 场 的 名 称 ， 而 不 是 让 用 户 依赖 难以 解释 的 机 场 代码 。 


通过 这 个 联邦 查询 的 小 例子 ， 你 会 发 现 ， 在 Presto 中 可 以 将 不 同 的 数据 源 和 集中 的 查询 在 
一 个 地 方 进行 组 合 ， 从 而 显著 改进 查询 结果 。 我 们 的 例子 只 改善 了 查询 结果 的 外 观 并 增强 
了 其 可 读 性 ， 但 在 很 多 情况 下 ， 利 用 更 丰富 、 更 大 的 数据 集 ， 联 邦 查询 将 不 同 来 源 的 数据 
组 合 在 一 起 ， 可 以 让 我 们 对 数据 有 一 个 全 新 的 理解 。 





























我 们 已 经 从 终端 用 户 的 角度 浏览 了 一 些 联 邦 查 询 的 例子 ， 接 下 来 讨论 一 下 这 个 架构 是 如 何 
工作 的 ， 这 基于 第 4 章 介绍 的 关于 Presto 架构 的 一 些 概念 。 














Presto 能 够 协调 查询 中 涉及 的 数据 源 之 间 的 混合 执行 。 在 前 面 的 例子 中 ， 我 们 在 分 布 式 存 
储 和 PostgreSQL 上 进行 查询 。 对 于 通过 Hive 连接 器 访问 的 分 布 式 存 储 ，Presto 会 直接 读 
取 数 据 文件 ， 无 论 数据 是 在 HDFS、S3、Azure Blob Storage 还 是 在 其 他 的 分 布 式 存储 上 。 
而 对 于 关系 数据 库 连 接 器 ， 如 PostgreSQL 连接 器 ，Presto 依靠 PostgreSQL 作为 执行 的 一 
部 分 。 让 我 们 使 用 前 面 的 查询 来 说 明 ， 但 为 了 让 它 更 有 趣 ， 我 们 添加 一 个 新 谓词 ， 它 引用 
了 PostgreSQL 的 airport 表 中 的 一 个 列 : 

















SELECT f.origin, c.name, c.city, count(*) AS ct 

FROM hive.ontime.flights_orc f, 
postgresql.airline.airport c 

WHERE c.code = f.origin AND c.state = 'AK' 

GROUP BY origin, c.name, c.city 

ORDER BY count(*) DESC 

LIMIT 10; 
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这 个 逻辑 查询 计划 类 似 于 图 7-5。 可 以 看 到 这 个 计划 包括 扫描 flights_orc 表 和 airport 
表 。 这 两 个 输入 都 被 送 入 Join 算 子 中 。 但 在 将 机 场 数 据 送 入 Join 算 子 之 前 ， 我 们 会 应 用 
一 个 Filter 算 子 ， 因 为 我 们 只 想 查 看 Alaska 机 场 的 结果 。 在 Join 之 后 ， 应 用 了 聚合 和 分 
组 操作 。 最 后 由 TopN 算 子 将 ORDER BY 和 LIMIT 一 并 完成 。 




















图 7-5: 联邦 查询 的 逻辑 查询 计划 
为 了 从 PostgreSQL 中 检索 数据 ，Presto 通过 JDBC 发 送 一 个 查询 。 例 如 ， 最 原始 的 方法 是 
将 下 面 的 查询 发 送 到 PostgreSQL: 

SELECT * FROM airline.airport; 


然而 ，Presto 比 这 更 聪明 ，Presto 优化 器 会 试图 减少 系统 间 传 输 的 数据 量 。 在 这 个 例子 中 ， 
Presto 只 从 PostgreSQL 表 中 查询 它 所 需要 的 列 ， 同 时 将 谓词 下 推 到 发 送 至 PostgreSQL 的 
SQL 中 。 





现在 从 Presto 发 送 到 PostgreSQL 的 查询 会 将 更 多 的 处 理 推 送 到 PostgreSQL: 
SELECT code, city, name FROM airline.airport WHERE state = 'AK'; 


当 到 PostgreSQL 的 JDBC 连接 器 返回 数据 到 Presto 时 ，Presto 会 继续 处 理 在 Presto 查询 引 
擎 中 执行 的 部 分 。 


一 些 比较 简单 的 查询 ， 如 SELECT * FROM public.airport， 会 完全 下 推 到 底层 数据 源 中 ， 
如 图 7-6 所 示 ， 这 样 查询 的 执行 就 发 生 在 Presto 之 外 ， 而 Presto 仅 作为 一 个 转发 的 角色 。 


目前 ，Presto 还 不 支持 更 复杂 的 SQL 下 推 。 例 如 ，Presto 对 只 涉及 RDBMS 数据 的 聚合 或 
Join 才 进 行 下 推 ， 以 消除 向 Presto 的 数据 传输 。 
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Hash Join 
code=origin 
Scan 
flights_orc 





Filter 
state="'AK' 

















图 7-6: 查询 计划 中 的 下 推 


7.7 “ETL 和 联合 查询 


提取 、 转 换 、 加 载 (extract, transform, load， 简 称 ETL) 是 一 个 术语 ， 指 从 数据 源 复制 数 
据 并 将 其 放 到 另 一 个 数据 源 的 技术 。 通 常 在 准备 目标 数据 的 过 程 中 会 有 一 个 从 数据 源 转换 
数据 的 中 间 步 又。 这 个 过 程 可 能 包括 丢弃 列 、 进 行 计 算 、 过 滤 和 清洗 数据 、Join 数据 ， 以 
及 进行 预 聚合 等 ， 这 些 都 是 为 了 让 目标 数据 更 适合 查询 。 

Presto 并 不 是 一 个 可 以 与 商业 解决 方案 相 媲美 的 、 成 熟 的 ETL 工具 ， 但 它 可 以 通过 避 


免 ETL 来 提供 一 些 帮助 。 因 为 Presto 可 以 从 数据 源 查 询 ， 所 以 可 能 不 再 需要 移动 数据 。 
Presto 可 以 在 数据 所 在 的 地 方 查询 数据 ， 以 降低 管理 ETL 过 程 的 复杂 性 。 


你 可 能 仍 需要 做 某 些 类 型 的 ETL 转换 。 也 许 你 想 查 询 预 聚合 的 数据 ， 或 者 你 不 想 给 底层 系 
统 带 来 更 多 的 负载 。 通 过 使 用 CREATE TABLE AS 或 INSERT SELECT， 你 可 以 将 数据 从 一 个 数 
据 源 移 动 到 另 一 个 数据 源 。 


在 将 Presto 用 于 ETL 场景 的 一 大 优势 是 支持 关系 数据 库 以 外 的 其 他 数据 源 。 
























































7.8 小 结 


你 现在 对 Presto 中 的 连接 器 有 了 很 好 的 认识 ， 是 时 候 好 好 利用 它们 了 。 配 置 好 你 的 
catalog ， 准 备 学 习 更 多 关于 查询 数据 产 的 知识 。 








这 就 引出 了 我 们 的 下 一 个 主题 一 一 SQL 在 Presto 中 的 使 用 。SQL 知识 对 于 你 成 功 使 用 
Presto 至 关 重 要 ， 第 8 章 和 第 9 章 会 介绍 所 有 你 需要 了 解 的 内 容 。 





第 8 和 章 


在 Presto 中 使 用 SQL 





在 安装 和 运行 Presto 之 后 ， 你 先 在 3.6 节 中 了 解 了 Presto 一 流 的 SQL 支持 中 所 包含 的 核心 
功能 。 如 有 必要 ， 可 以 回顾 一 下 这 部 分 内 容 。 


在 第 6 章 中 你 知道 了 可 以 在 Presto 中 用 SQL 查询 很 多 数据 源 。 











在 本 章 中 ， 你 将 深入 了 解 Presto 所 支持 SQL 的 细节 ， 包 括 一 组 数据 定义 语言 (data 
definition language，DDL) 语句 ， 它 们 用 于 创建 和 操作 数据 库 对 象 ， 如 schema、 表 、 列 和 
视图 。 你 还 将 学 习 更 多 的 数据 类 型 和 SQL 语句 。 在 第 9 章 中 ， 你 将 学 习 到 更 多 操作 符 和 函 
数 的 高 级 用 法 。 





总 之 ， 本 章 的 目的 不 是 作为 SQL 参考 指责， 而 是 展示 Presto 中 SQL 的 能 力 。 关 于 Presto 
中 SQL 的 最 新 和 最 完整 的 信息 ， 可 以 参考 Presto 官方 文档 ， 参 见 1.4.2 市 。 














你 可 以 通过 使 用 Presto CLI 或 任何 使 用 JDBC 或 ODBC 驱动 的 应 用 程序 来 使 
用 SQL， 这 些 都 在 第 3 章 中 讨论 过 。 




















连接 器 的 影响 


在 Presto 中 执行 的 所 有 操作 都 依赖 数据 源 的 连接 器 及 其 对 特定 命令 的 支持 。 如 果 和 连接 
数据 源 的 连接 器 不 支持 DELETE 语句 ， 执 行 DELETE 就 会 失败 。 
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此 外 ， 创 建 的 连接 通常 使 用 特定 的 用 户 或 其 他 授权 机 制 ， 即 存在 特定 的 限制 。 如 果 用 
户 没有 除 读 取 数 据 以 外 的 权限 ， 或 者 甚至 只 能 从 特定 的 Schema 中 读 取 数 据 ， 那 么 其 他 
操作 (如 删除 数据 或 写 入 新 数据 ) 就 会 执行 失败 。 





8.1 ” Presto 语句 


在 使 用 Presto 深入 查询 数据 之 前 ， 知 道 哪些 数据 可 用 、 在 什么 地 方 、 是 什么 类 型 很 重要 。 
你 可 以 通过 Presto 语句 (Presto statement) 收集 这 些 信息 。Presto 语句 可 以 查询 系统 表 和 源 
数据 ， 以 获取 catalog 和 schema 等 信息 。 这 些 语句 与 所 有 SQL 语句 在 相同 的 上 下 文 工 作 。 


语句 中 的 FROM 和 FOR 子 句 需要 输入 一 个 完全 限定 的 表 、catalog 或 schema， 除 非 之 前 使 用 
USE 设置 了 默认 值 。 


LIKE 子 句 可 以 用 来 限制 结果 ， 其 使 用 的 schema 匹配 语法 类 似 于 SQL 中 的 LIKE 命令 。 
口中 的 命令 部 分 是 可 选 的。 以 下 是 Presto 可 用 的 一 些 语 句 。 


SHOW CATALOGS [ LIKE pattern ] 
列 出 可 用 的 catalog。 


SHOW SCHEMAS [ FROM catalog ] [ LIKE pattern ] 
列 出 catalog 中 的 schema。 


SHOW TABLES [ FROM schema ] [ LIKE pattern ] 
列 出 一 个 schema 中 的 表 。 








SHOW FUNCTIONS 
显示 所 有 可 用 SQL 国 数 的 列表 。 
SHOW COLUMNS FROM table 或 DESCRIBE table 


列 出 表 中 的 列 及 其 数据 类 型 和 其 他 属性 。 


USE catalog.schema 或 USE schema 
更 新 会 话 以 使 用 指定 的 catalog 和 schema 作为 默认 值 。 如 果 没 有 指定 catalog， 则 使 用 当 
前 catalog 来 解析 schema。 





SHOW STATS FOR table name 
显示 某 个 表 中 的 数据 规模 和 数量 等 统计 信息 。 


EXPLAIN 
生成 查询 计划 ， 并 详细 列 出 各 个 步骤 。 








-A 
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下 面 就 来 看 一 些 常用 的 例子 : 











SHOW SCHEMAS IN tpch LIKE '%3%'; 
Schema 


sf300 

sf3000 
sf30000 
(3 rows) 


DESCRIBE tpch.tiny.nation; 


Column | Type | Extra | Comment 
----------- +--------------+-------+-------- 
nationkey | bigint | 

name | varchar(25) | 

regionkey | bigint | 
comment “| varchar(152) | | 
(4 rows) 





EXPLAIN 语句 实际 上 比 前 面 列表 中 给 出 的 要 更 强大 。 下 面 是 完整 的 语法 : 
EXPLAIN [ ( option [, ...] ) ] <query> 


options: FORMAT { TEXT | GRAPHVIZ | JSON} 
TYPE { LOGICAL | DISTRIBUTED | I0 | VALIDATE } 


可 以 使 用 EXPLAIN 语句 来 显示 查询 计划 : 


EXPLAIN 
SELECT name FROM tpch.tiny.region; 

Query PLan 
Output[name] 


| Layout: [name:varchar(25)] 
| Estimates: {rows: 5 (59B), cpu: 59, memory: QB, network: 59B} 
Ll RemoteExchange[ GATHER] 
| Layout: [name:varchar(25)] 
| Estimates: {rows: 5 (59B), cpuyu: 59, memory: OB, network: 59B} 
LL TableScan[tpch:region:sf0.01] 
Layout: [name:varchar(25)] 
Estimates: {rows: 5 (59B), cpu: 59, memory: OB, network: QB} 
name := tpch:name 


这 些 计划 信息 能 帮助 你 进行 性 能 调 优 并 更 好 地 理解 Presto 如 何 处 理 查询 。 可 以 在 第 4 章 和 
第 12 章 中 了 解 更 多 关于 此 的 信息 。 





EXPLAIN 的 一 个 非常 简单 的 使 用 场景 是 检查 查询 在 语法 上 是 否 正 确 : 


EXPLAIN (TYPE VALIDATE) 
SELECT name FROM tpch.tiny.region; 
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8.2 ”Presto 系 统 表 
Presto 系统 表 不 需要 配置 catalog 文件 ， 所 有 的 schema 和 表 都 在 system catalog 中 自动 提供 。 





你 可 以 使 用 8.1 节 中 提 到 的 语句 来 查询 schema 和 表 ， 以 了 解 更 多 关于 Presto 运行 实例 的 信息 。 
可 用 的 数据 包括 运行 时 、 节 点 、catalog 等 ， 这 些 信息 可 以 让 你 更 好 地 理解 和 使 用 Presto。 





Presto Web UI 是 一 个 基于 网 页 的 用 户 界 面 ， 它 显示 了 系统 表 的 相关 信息 。 更 
多 详细 信息 参见 12.1 节 。 





系统 表 包 含 的 schema: 


SHOW SCHEMAS IN System; 
Schema 


information_schema 
jdbc 

metadata 

runtime 

(4 rows) 


为 了 进行 查询 调 优 ， 表 system.runtime.queries 和 system.runtime.tasks 是 最 有 用 的 : 


DESCRIBE system.runtime.queries; 


Column | Type | Extra | Comment 

2 +----------------+-------+--------- 
query_id | varchar | | 
state | varchar | | 
user | varchar | | 
source | varchar | | 
query | varchar | | 
resource_group_id | array(varchar) | | 
queued time ms | bigint | | 
analysis time ms | bigint | | 
distributed_ planning time ms | bigint | | 
created | timestamp | | 
started | timestamp | | 
Last_heartbeat | timestamp | 

end | timestamp | | 
(13 rows) 
DESCRIBE system.runtime.tasks; 

Column | Type | Extra | Comment 

------------------------- +-----------+-------+--------- 
node_id | varchar | 

task_id | varchar | 

stage_id | varchar | | 

query_id | varchar | 

state | varchar | | 
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splits | bigint | | 
queued_splits | bigint | 
running_splits | bigint | 
completed_splits | bigint | 

split_ scheduled time ms | bigint | | 
split cpyu_ time ms | bigint | 

split blocked time ms | bigint | | 
raw_input_bytes | bigint | 
raw_input_rows | bigint | 
processed_input_bytes | bigint | 
processed_input_rows | bigint | 
output_bytes | bigint | 
output_rows | bigint | 
physical written bytes | bigint | | 
created | timestamp | | 
start | timestamp | | 
Last_heartbeat | timestamp | | 
end | timestamp | | 
(23 rows) 


上 述 表 展 示 了 一 些 底 层 数 据 ， 在 12.1 节 中 将 详细 介绍 这 些 数据 。system.runtime.queries 
表 提 供 了 Presto 中 当前 和 历史 查询 的 信息 。system.runtime.tasks 表 则 提供 了 Presto 中 任 
务 的 底层 细节 。 这 与 Presto Web UI 中 Query Details 页 面 (查询 详情 页 ) 的 信息 输出 类 似 。 

















以 下 是 几 个 查询 系统 表 的 有 用 例子 。 
列 出 Presto 集群 中 的 节点 : 
SELECT * FROM system.runtime.nodes; 
显示 所 有 失败 的 查询 : 
SELECT * FROM system.runtime.queries WHERE state= "FAILED ' ; 
显示 所 有 运行 中 的 查询 ， 包 括 它 们 的 query_id: 
SELECT * FROM system.runtime.queries WHERE state="'RUNNING'; 
系统 表 还 提供 了 一 种 机 制 来 终结 运行 中 的 查询 。 
CALL system.runtime.kill query(query_id => 'queryId', message => 'Killed'); 


除了 Presto 运行 时 、 集 群 以 及 工作 节点 等 信息 外 ，Presto 连接 器 还 能 够 暴露 其 连接 的 数据 
源 中 的 系统 数据 。 例 如 ， 可 以 在 datalake catalog 中 配置 使 用 6.4 市 中 讨论 的 Hive 连接 器 。 
它 可 以 自动 地 将 Hive 的 系统 表 暴 露出 来 : 


SHOW TABLES FROM dataLake.system; 





结果 中 包含 了 诸如 已 用 分 区 等 方面 的 信息 。 
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8.3 catalog 


如 第 6 章 中 所 述 ，Presto catalog 代表 在 catalog 属性 文件 中 使 用 连接 器 配置 的 数据 源 。 
catalog 包含 一 个 或 多 个 schema， 而 schema 提供 了 表 的 集合 





例如 ， 你 可 以 配置 一 个 PostgreSQL catalog 来 访问 PostgreSQL 上 的 关系 数据 库 ， 也 可 以 配 
置 一 个 JMX catalog， 通 过 JMX 连接 器 对 JMX 信息 进行 访问 ， 还 可 以 通过 使 用 Hive 连接 
器 的 catalog 连接 到 HDFS 对 象 存储 数据 源 。 当 在 Presto 中 运行 一 个 SQL 语句 时 ， 你 是 在 
一 个 或 多 个 catalog 上 运行 它 。 











多 个 catalog 可 以 使 用 同一 个 连接 器 。 例 如 ， 你 可 以 创建 两 个 独立 的 catalog 来 暴露 两 个 运 
行 在 同一 服务 器 上 的 PostgreSQL 数据 库 。 


在 Presto 中 寻找 一 个 表 时 ， 完 全 限定 表 名 总 是 以 catalog 为 根 。 例 如 ， 完 全 限定 表 名 hive. 
test_data.test 指 的 是 hive catalog、test_data schema 中 的 test 表 。 


可 以 通过 访问 系统 数据 来 查看 Presto 服务 器 中 的 可 用 catalog 列表 : 


SHOW CATALOGS; 
Catalog 
blackhole 
hive 
jmx 
postgresql 
kafka 
system 

(6 rows) 


catalog、schema 和 表 信 息 不 由 Presto 存储 ，Presto 也 没有 自己 的 catalog。 连 接 器 负责 据 
Presto 提供 这 些 信息 。 通 常情 况 下 ， 这 是 通过 从 底层 数据 库 查 询 catalog 或 通过 连接 器 的 其 
他 配置 来 完成 的 。 连 接 器 处 理 这 些 请 求 ， 并 在 收 到 请 求 后 返回 相关 信息 。 





























8.4 schema 


Presto 的 catalog 包含 schema。schema 包含 表 、 视 图 和 其 他 各 种 对 象 ， 是 组 织 表 的 一 种 方 
式 。catalog 和 schema 共同 定义 了 一 组 可 以 查询 的 表 。 


当 用 Presto 访问 关系 数据 库 (如 MySQL) 时 ，schema 转化 为 目标 数据 库 中 的 相同 概念 。 
而 其 他 类 型 的 连接 器 可 能 选择 以 底层 数据 源 有 意义 的 方式 将 表 组 织 成 schema。 连 接 器 的 实 
现 决 定 了 schema 在 catalog 中 的 映射 方式 。 例 如 ，Hive 中 的 数据 库 在 Presto 的 Hive 连接 
器 中 是 以 schema 的 形式 暴露 出 来 的 。 

















通常 情况 下 ， 当 你 配置 一 个 catalog 时 ，schema 已 经 存在 ， 但 Presto 也 允许 创建 schema 和 








其 他 schema 操作 。 
下 面 来 看 看 创建 schema 的 SQL 语句 : 


CREATE SCHEMA [ IF NOT EXISTS ] schema_name 
[ WITH ( property_name = expression [, ...] ) ] 





WITH 子 句 可 用 于 将 属性 关联 到 schema。 例 如 ， 对 于 Hive 连接 器 ， 创 建 一 个 schema 实际 上 
就 是 在 Hive 中 创建 一 个 数据 库 。 有 时 候 ， 需 要 履 盖 hive.metastore.warehouse.dir 指定 的 
数据 库 的 默认 位 置 : 





CREATE SCHEMA hive.web 
WITH (Location = 's3://example-org/web/') 


要 获得 可 用 的 schema 属性 列表 ， 你 可 以 参考 Presto 的 最 新 文档 ， 或 者 在 Presto 中 执行 
查询 : 

SELECT * FROM system.metadata.schema_properties; 

-[ RECORD 1 ]-+--------- 

CataLog_name | hive 

property_name | location 

default_value | 


type | varchar 
description | Base file system location URI 


可 以 更 改 现 有 schema 的 名 称 : 
ALTER SCHEMA name RENAME TO new_name 
还 支持 删除 一 个 schema: 


DROP SCHEMA [ IF EXISTS ] schema_name 


当 你 不 想 让 语句 在 schema 不 存在 的 情况 下 出 错时 ， 可 以 指定 IF EXISTS。 在 成 功 删除 
schema 之 前 ， 你 需要 删除 其 中 的 表 。 有 些 数据 库 系 统 支持 CASCADE 关键 字 ， 表 示 用 DROP 
语句 将 对 象 (如 schema) 内 的 所 有 东西 都 删除 。 但 是 Presto 现 阶段 并 不 支持 CASCADE。 























8.5 |Information Schema 


Information Schema 是 SQL 标准 的 一 部 分 ， 并 在 Presto 中 作为 一 组 视图 ， 提供 了 关 
于 catalog 中 的 schema、 表 、 列 、 视 图 和 其 他 对 象 的 元 数据 。 这 组 视图 包含 在 一 个 名 为 
information_schema 的 schema 中 。 每 个 Presto catalog 都 有 自己 的 information_schema。 像 
SHOW TABLES、SHOW SCHEMA 等 命令 的 结果 与 Information Schema 中 检索 到 的 信息 相同 。 














Information Schema 对 于 商业 智能 工具 等 第 三 方 工具 来 说 必 不 可 少 ， 其 中 的 许多 工具 会 查 
询 Information Schema， 以 便 知 道 有 哪些 对 象 存在 。 
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在 每 个 连接 器 中 ，Information Schema 都 有 8 个 视图 。 对 于 某 些 不 支持 的 功能 (例如 角色 ) 
的 连接 器 ， 查 询 对 应 的 Information Schema 可 能 会 产生 一 个 不 支持 的 错误 : 








SHOW TABLES IN system.information_schema; 
Table 
applicable_roles 

columns 
enabled_roles 
roles 

schemata 
table_privileges 
tables 

views 

(8 rows) 


注意 ， 在 你 通过 Information Schema 查询 schema 中 的 表 时 ， 也 会 返回 Information Schema 
自身 拥有 的 表 : 


SELECT * FROM hive.information_schema.tables; 


table_catalog | table_schema | table_name | table_type 
--------------- 和 
hive | web | nation | BASE TABLE 
hive | information_schema | enabled_roles | BASE TABLE 
hive | information_schema | roles | BASE TABLE 
hive | information_schema | coLumns | BASE TABLE 
hive | information_schema | tables | BASE TABLE 
hive | information_schema | views | BASE TABLE 
hive | information_schema | applicable_roles | BASE TABLE 
hive | information_schema | table privileges | BASE TABLE 
hive | information_schema | schemata | BASE TABLE 
(9 rows) 


此 外 ， 你 可 以 使 用 WHERE 子 句 来 查询 特定 表 的 列 : 


SELECT table_ catalog, table_schema, table_name, column_name 
FROM hive.information_schema.columns 
WHERE table name = "nation ; 


table_catalog | table_schema | table_name | column_name 
--------------- +--------------------+------------------+------------- 
hive | web | _ nation | regionkey 
hive | web | nation | comment 

hive | web | nation | nationkey 
hive | web | nation | name 


8.6 表 


你 已 经 了 解 了 catalog 和 schema， 下 面 来 学 习 一 下 Presto 中 表 的 定义 。 表 是 一 组 无 序 的 行 
它 将 数据 组 织 成 具有 特定 数据 类 型 的 命名 列 。 和 关系 数据 库 中 的 表 一 样 ，Presto 的 表 由 行 、 


+ 
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列 和 这 些 列 的 数据 类 型 所 组 成 。 从 源 数据 到 表 的 映射 是 由 catalog 定义 的 。 


连接 器 的 实现 决定 了 表 如 何 映射 到 schema。 例 如 ，PostgreSQL 中 的 表 是 直接 暴露 在 Presto 
中 的 ， 因 为 PostgreSQL 原生 支持 SQL 和 表 的 概念 。 然 而 ， 要 实现 与 其 他 系统 的 连接 器 ， 
特别 是 当 它 们 在 设计 上 和 缺乏 严格 的 表 概 念 时 ， 需 要 更 多 的 创造 力 。 例 如 ，Apache Kafka 连 
接 器 将 Kafka topic 暴露 为 Presto 中 的 表 。 

















可 以 在 SQL 查询 中 使 用 完全 限定 名 (catalog-name. schema-name. table-name) 来 访问 表 。 
下 面 来 看 看 在 Presto 中 创建 表 的 语句 CREATE TABLE: 

















CREATE TABLE [ IF NOT EXISTS ] 
table_name ( 
{ column_name data type [ COMMENT comment ] 
[ WITH ( property_name = expression [, ...] ) ] 
| LIKE existing table name [ { INCLUDING | EXCLUDING } PROPERTIES ] } 
|| 


[ COMMENT table_comment |] 
[ WITH ( property_name = expression [, ...] ) ] 


知道 SQL 的 用 户 会 十 分 熟悉 上 述 语法 。 在 Presto 中 ， 可 选 的 NITH 子 句 有 一 个 重要 的 用 途 : 
其 他 的 系统 (如 Hive) 扩展 了 SQL 语言 ， 使 用 户 可 以 使 用 那些 无 法 用 标准 SQL 表达 的 逻 
辑 或 数据 。 遵 循 相同 的 方法 违反 了 Presto 尽 可 能 地 接近 SQL 标准 的 理念 ， 也 导致 难以 管理 
多 种 不 同 的 连接 器 。 因 此 Presto 选择 使 用 MITH 语句 指定 表 和 列 的 属性 ， 而 不 是 扩展 SQL 


语言 。 


























表 创 建 后 便 可 使 用 标准 SQL 中 的 INSERT INTO 语句 。 


例如 ， 在 昔 尾 花 数据 集 创 建 脚本 中 ， 首 先 创 建 一 个 表 (参见 1.4.7 市 )， 然 后 直接 用 查询 插 
入 值 : 


INSERT INTO iris ( 
sepaL_Length_cm， 
sepal_width_cm, 
petal_length_cm, 
petal_width_cm, 
species ) 

VALUES 
CS 


如 果 数 据 是 通过 单独 的 查询 获得 的 ， 则 你 可 以 在 INSERT 中 使 用 SELECT。 假 定 你 想 把 数据 
从 memory catalog 中 复制 到 PostgreSQL 中 已 有 的 一 张 表 里 : 


INSERT INTO postgresql.flowers.iris 
SELECT * FROM memory.default.iris; 





SELECT 语句 可 以 包括 条 件 语句 以 及 任何 其 他 支持 的 语句 。 
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8.6.1 表 和 列 属性 








让 我 们 使 用 6.4 节 中 介绍 过 的 Hive 连接 器 来 创建 一 个 表 ( 见 表 8-1) ， 以 学 习 WITH 子 名 的 














用 法 。 
表 8-1: Hive 连 接 器 所 支持 的 表 属 性 
属性 名 称 属性 描述 
external_location Hive 外 部 表 所 在 文件 系统 的 位 置 ， 例 如 ，S3 或 Azure Blob Storage 上 的 位 置 
format 底层 数据 的 文件 存储 格式 ， 如 ORC、AVRO、PARQUET 等 
我 们 使 用 表 8-1 中 的 属性 通过 Presto 在 Hive 中 创建 一 个 表 ， 这 种 创建 方式 与 在 Hive 中 创 
建 表 的 方式 相同 。 
我 们 先 来 看 看 Hive 的 语法 : 





CREATE EXTERNAL TABLE page_views( 
View_time INT， 
user_id BIGINT, 
page_url STRING, 
view_date DATE, 
country STRING) 
STORED AS ORC 
LOCATION 's3://example-org/web/page_views/'; 


与 Presto 中 的 SQL 相 比 较 : 


CREATE TABLE hive.web.page_views( 
View time timestamp, 
user_id BIGINT, 
page_url VARCHAR, 
view_date DATE, 
country VARCHAR 


) 
WITH ( 
format = 'ORC', 
external_location = 's3://example-org/web/page_views' 


bE 


可 以 看 到 ，Hive DDL 扩展 了 SQL 标准 ， 而 Presto 使 用 属性 达成 同样 的 目的 ， 
SQL 标准 。 








你 可 以 查询 Presto 的 系统 元 数据 来 列 出 可 用 的 表 属 性 : 





SELECT * FROM system.metadata.tabLe_properties; 





要 列 出 可 用 的 列 属 性 ， 可 以 运行 下 面 的 查询 : 











SELECT * FROM system.metadata.column_properties; 

















8.6.2 复制 现 有 的 表 


可 以 将 现 有 的 表 作为 模板 来 新 建 一 个 表 。LIKE 子 句 会 创建 一 个 与 现 有 表 具 有 相同 列 定义 的 
表 。 默 认 情 况 下 ， 表 和 列 属 性 不 会 被 复制 。 由 于 属性 在 Presto 中 很 重要 ， 我 们 建议 在 语法 
中 使 用 INCLUDING PROPERTIES 来 复制 它们 。 这 个 功能 在 使 用 Presto 对 数据 进行 某 种 类 型 的 





转换 时 非常 有 用 : 


CREATE TABLE hive.web.page _ view bucketed( 
comment VARCHAR, 
LIKE hive.web.page_views INCLUDING PROPERTIES 
) 
WITH ( 
bucketed_by = ARRAY[ 'user_id'], 
bucket_count = 50 
) 


使 用 SHO 语句 来 检查 新 建 表 的 定义 : 


SHOW CREATE TABLE hive.web.page_view bucketed; 
Create Table 
CREATE TABLE hive.web.page view bucketed ( 
comment varchar, 
View time timestamp, 
user_id bigint, 
page_url varchar, 
view date date, 
country varchar 


) 
WITH ( 
bucket_count = 50， 
bucketed_by = ARRAY[ 'user_id'], 
format = 'ORC', 
partitioned_ by = ARRAY[ 'view date','country'], 
sorted_by = ARRAY[] 
) 
(1 row) 


你 可 以 将 新 表 和 原 表 进行 比较 : 





SHOW CREATE TABLE hive.web2.page_ views; 
Create Table 
CREATE TABLE hive.web.page views ( 
View time timestamp, 
user_id bigint, 
page_url varchar, 
view_ date date, 
country varchar 


) 
WITH ( 
format = 'ORC', 
partitioned_ by = ARRAY[ 'view_date' ，country '] 
) 
(1 row) 
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8.6.3 ”从 查询 结果 中 新 建 表 

CREATE TABLE AS (CTAS) 语句 可 用 于 新 建 包 含 SELECT 查询 结果 的 表 。 该 表 的 列 定义 是 根 
据 查 询 结果 的 列 数据 动态 创建 的 。 该 语句 可 用 于 创建 临时 表 ， 或 作为 创建 转换 表 过 程 的 一 
部 分 : 








CREATE TABLE [ IF NOT EXISTS ] table name [ ( column_alias, ... ) ] 
[ COMMENT tabLe_comment ] 

[ NITH ( property_name = expression [, ...] ) ] 

AS query 

[ WITH [ NO ] DATA ] 

















默认 情况 下 ， 新 表 中 填充 了 查询 的 结果 。 


CTAS 可 用 于 转换 表 和 数据 。 例 如 ， 你 可 以 将 未 分 区 的 TEXTFILE 格式 的 数据 加 载 到 一 个 
分 区 的 ORC 格式 的 表 中 : 


CREATE TABLE hive.web.page_ views orc_part 
WITH ( 
format = 'ORC', 
partitioned_ by = ARRAY['view date','country'] 
) 
AS 
SELECT 关 
FROM hive.web.page_view_text 


接 下 来 的 例子 展示 了 如 何 从 page_views 表 上 的 会 话 查 询 来 创建 新 表 : 


CREATE TABLE hive.web.user_sessions 


AS 
SELECT user_id, 
view time, 
sum(session_boundary) 
OVER ( 


PARTITION BY user_id 
ORDER BY view time) AS session id 
FROM (SELECT user_id, 
view_ time, 
CASE 
WHEN to_unixtime(view time) - 
lag(to_unixtime(view time), 1) 
OVER( 
PARTITION BY user_id 
ORDER BY view time) >= 30 
THEN 1 
ELSE 0 
END AS session boundary 
FROM page_views) T 
ORDER BY user_id, 
sesstion id 














有 时 你 只 需要 创建 一 个 具有 相同 表 定 义 而 不 包含 数据 的 表 。 你 可 以 通过 在 
CTAS 语句 的 末尾 添加 WITH NO DATA 子 句 来 实现 。 





8.6.4 修改 表 
ALTER TABLE 语句 可 以 执行 诸如 重 命 名 表 、 添 加 列 、 删 除 列 或 重 命名 列 等 操作 : 
ALTER TABLE name RENAME TO new_name 


ALTER TABLE name ADD COLUMN coLumn_name data_type 
[ COMMENT comment ] [ WITH ( property_name = expression [, ...] ) ] 


ALTER TABLE name DROP COLUMN column_name 


ALTER TABLE name RENAME COLUMN column_name TO new_coLumn_name 


需要 注意 的 是 ， 根 据 连接 器 和 连接 器 的 授权 模型 ， 默 认可 能 不 允许 这 些 修改 表 的 操作 。 例 
如 ，Hive 连接 器 就 默认 限制 了 这 些 操作 。 


8.6.5 删除 表 


使 用 DROP TABLE 语句 可 以 删除 一 个 表 


DROP TABLE [ IF EXISTS ] table_name 








根据 连接 器 的 实现 ， 这 不 一 定 会 删除 底层 数据 ， 你 应 该 参考 连接 器 文档 以 获得 进一步 的 
解释 。 


8.6.6 连接 器 对 表 操 作 的 限制 


目前 ， 本 章 已 经 介绍 了 Presto 支持 的 各 种 SQL 语句 。 然 而 ， 这 并 不 意味 着 Presto 中 的 每 一 
个 数据 源 都 支持 所 有 的 语句 和 语法 ， 或 者 提供 相同 的 语义 。 




















连接 器 的 实现 和 底层 数据 源 的 能 力 与 语义 很 大 程度 上 会 影响 SQL 的 支持 程度 。 

















如 果 你 尝试 使 用 连接 器 不 支持 的 语句 或 操作 ，Presto 就 会 返回 一 个 错误 。 例 如 ， 系 统 
schema 和 表 是 用 来 暴露 Presto 系统 信息 的 。 在 此 schema 下 不 支持 创建 表 ， 因 为 这 对 于 内 
部 系统 数据 表 没 有 意义 。 如 果 试 图 创建 表 ， 就 会 收 到 错误 : 























CREATE TABLE system.runtime.foo(a int); 
Query failed: This connector does not support creating tables 
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8.7 视图 
视图 是 基于 SQL 查询 结果 集 的 虚拟 表 。 很 多 RDBMS 对 视图 有 良好 的 支持 ， 但 Presto 不 支 
持 创建 、 编 辑 或 删除 视图 。 


Presto 把 底层 数据 源 中 的 视图 当 作 表 一 样 处 理 ， 这 使 得 你 可 以 将 视图 用 于 一 些 非常 有 用 的 
目的 。 





。 将 多 个 表格 中 的 数据 以 更 容易 使 用 的 视图 形式 暴露 出 来 。 
。 使 用 具有 受 限 列 或 行 的 视图 来 限制 可 用 数据 。 
。 方便 地 提供 经 过 处 理 、 转 换 的 数据 。 


使 用 视图 默认 要 求 底层 数据 源 对 视图 中 的 数据 拥有 完全 的 所 有 权 ， 所 以 需要 在 底层 数据 源 
上 创建 并 维护 视图 。 因 此 ， 使 用 视图 可 以 让 你 在 几 步 之 内 将 查询 的 处 理 下 推 到 RDBMS 中 。 















































发 现 Presto 中 运行 的 SQL 查询 有 性 能 问题 。 

. 通过 查看 执行 EXPLAIN 的 计划 来 查找 问题 原因 。 

.意识 到 是 特定 的 子 查询 造成 的 瓶颈 。 

. 创建 预 处 理子 查询 的 视图 。 

人 
受 性 能 提升 。 


8.8 会 话 信息 和 配置 


当 使 用 Presto 时 ， 所 有 的 配置 都 在 一 个 用 户 特定 的 上 下 文中 维护 ， 称 为 会 话 。 该 会 话 包含 
键 值 对 ， 表 示 当 前 用 户 与 Presto 交互 时 所 使 用 的 诸多 配置 。 


你 可 以 使 用 SQL 命令 与 这 些 信息 进行 交互 。 对 于 初学 者 来 说 ， 你 可 以 直接 查看 当前 的 配置 
是 什么 ， 其 至 可 以 使 用 LIKE 模式 来 查看 你 感 兴趣 的 选项 : 





mm pr 





SHOW SESSION LIKE 'query%'; 





此 查询 返回 关于 query_max_cpu_time、query_max_execution_time、query_max_run_time 和 
query_priority 的 信息 ， 包 括 当 前 值 、 默 认 值 、 数 据 类 型 (INTEGER、BOOLEAN 或 VARCHAR ) ， 
以 及 属性 的 简要 描述 。 


属性 列表 很 长 ， 里 面包 括 了 诸多 影响 Presto 行为 的 配置 选项 ， 例 如 查询 的 内 存 和 CPU 限 
制 、 查 询 优 化 算法 和 是 否 使 用 基于 代价 的 优化 器 等 。 

















作为 用 户 ， 你 可 以 更 改 这 些 属性 ， 这 些 属 性 只 影响 当前 用 户 会 话 的 表现 。 你 可 以 为 特定 的 
查询 或 工作 负载 设置 特定 的 选项 ， 或 者 在 将 特定 配置 发 布 到 全 局 的 config.properties 主 配置 
文件 之 前 先 在 会 话 中 测试 它们 。 











例如 ， 你 可 以 激活 实验 性 的 算法 来 使 用 collocated_join 进行 查询 优化 : 
SET SESSION collocated join = true; 
你 可 以 通过 以 下 语句 确认 是 否 设置 成 功 : 
SHOWN SESSION LIKE 'collocated join'; 
Name | vatLue | Default ... 


cottocated_jotn | true | fatse 
要 撤销 设置 并 恢复 到 默认 值 ， 你 可 以 重 置 会 话 属性 ， 


RESET SESSION collocated_ join; 


8.9 数据 类 型 


Presto 支持 SQL 标准 描述 的 大 部 分 数据 类 型 ， 许 多 关系 数据 库 也 支持 这 些 类 型 。 本 节 将 讨 
论 Presto 中 支持 的 数据 类 型 。 


不 是 所 有 的 Presto 连接 器 都 支持 所 有 的 Presto 数据 类 型 ， 








并 且 Presto 也 可 能 不 支持 底层 数 





据 源 中 的 所 有 类 型 ，Presto 数据 类 型 与 底层 数据 源 中 的 转换 方式 取决 于 连接 器 的 实现 。 底 








层 数 据 源 可 能 不 支持 同名 的 类 型 ， 或 者 相同 的 类 型 可 能 有 不 同 的 命名 方式 。 例 如 ，MySQL 


连接 器 将 Presto 的 REAL 类 型 映射 到 MySQL 的 FLOAT 类 型 。 





在 某 些 情况 下 ， 数 据 类 型 需要 进行 转换 。 
VARCHAR 类 型 〈 即 源 数据 的 字符 串 表 示 )， 或 者 在 读 取 时 完 


一 些 


一 些 连接 器 将 不 支持 的 类 型 转换 为 Presto 的 


全 忽略 该 列 。 有 具体 细节 可 以 在 连 





接 器 的 文档 和 源 代 码 中 找到 。 


让 我 们 来 看 一 下 受到 


型 








良好 支持 的 数据 类 型 列表 。 表 8-2 到 表 8-6 描述 了 Presto 中 的 数据 类 


， 并 提供 了 示例 数据 。 


表 8-2: 布尔 数据 类 型 








类 型 描 述 示 例 

BOOEEAN true 或 false 布尔 值 True 

表 8-3: 整数 数据 类 型 

基色 描述 示 例 
TINYINT 8 位 有 符号 整数 ， 最 小 值 3 最 大 值 站 27 42 
SMALLINT 16 位 有 符号 整数 ， 最 小 值 -25， 最 大 值 253 42 
INTEGER, INT 32 位 有 符号 整数 ， 最 小 值 -23， 最 大 值 2 42 
BIGINT 64 位 有 符号 整数 ， 最 小 值 .926 ， 最 大 值 263-1 42 
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表 8-4: 浮 点 数据 类 型 











站 到 描 述 示 例 
REAL 32 位 浮 点 数 ， 遵 循 IEEE 754 二 进 制 浮 点 数 运算 标准 2.71828 
DOUBLE 64 位 浮 点 数 ， 遵 循 IEEE 754 二 进 制 浮 点 数 运算 标准 2.71828 

















表 8-5: 固定 精度 数据 类 型 


类 型 描 述 示 例 
DECIMAL 固定 精度 小 数 123456.7890 

















表 8-6: 字符 串 数据 类 型 

类 型 描 述 示 例 

VARCHAR 或 VARCHAR(n) 可 变 长 度 的 字符 串 。 当 定义 为 VARCHAR(n) 上 时， 可 以 指定 一 个 "Hello World" 
可 选 的 正 整数 n 代表 最 大 字符 长 度 值 

CHAR CHAR(n) 国定 长 度 的 字符 串 。 当 定义 为 CHAR(n) 时 ， 可 以 指定 一 个 可 选 "Hello World" 

的 正 整数 n 代表 字符 长 度 。CHAR 等 同 于 CHAR(1) 


























与 VARCHAR 不 同 ，CHAR 总 是 分 配 n 个 字符 。 以 下 是 你 应 该 注意 的 一 些 特征 和 错误 。 


。 如 果 将 一 个 少 于 个 字符 的 字符 串 转 换 为 CHAR(n)， 则 会 在 尾部 添加 空格 。 

。 如 果 将 一 个 多 于 个 字符 的 字符 串 转 换 为 CHAR(n)， 则 会 被 截断 ， 而 不 会 报错 。 

。 如 果 你 在 表 中 插入 一 个 比 列 中 所 定义 长 度 长 的 VARCHAR 或 CHAR， 则 会 报错 。 

。 如 果 你 在 表 中 插入 一 个 比 列 中 所 定义 长 度 短 的 CHAR， 那 么 这 个 值 会 被 填充 空格 ， 以 匹 

配 定义 的 长 度 。 

。 如 果 你 在 表 中 插入 一 个 比 列 中 定义 长 度 更 短 的 VARCHAR， 则 会 保留 字符 串 的 确切 长 度 。 
比较 CHAR 值 时 ， 前 导 和 尾部 的 空格 也 被 考虑 在 内 。 


下 的 例子 演示 了 这 些 行为 : 























村 











SELECT length(cast('hello worLd' AS char(100))); 
_col0 

100 
(1 row) 


SELECT cast('hello world' AS char(15)) || '~'; 
_col0 

hello world ~ 

(1 row) 


SELECT cast('hello world' AS char(5)); 
_col0 





SELECT length(cast('hello 
_col0 


_col0 


hello world~ 
(1 row) 


SELECT cast('hello world' 
_col0 


_col0 


CREATE TABLE varchars(col 


INSERT INTO into varchars 
INSERT: 1 row 


world' AS varchar(15))); 


AS varchar(15)) || '~'; 


as char(15)) = cast('hello world' as char(14)); 


as varchar(15)) = cast('hello world' as varchar(14)); 


varchar(5)); 


values('1234'); 


INSERT INTO varchars values('123456'); 
Query failed: Insert query has mismatched column types: 
Table: [varchar(5)], Query: [varchar(6)] 


8.9.1 合 数 据 类 型 


随 着 数据 变 得 越 来 越 庞 大 和 复 


杂 ， 














有 时 会 以 更 复杂 的 数据 类 型 来 存储 ， 如 数组 和 映射 等 。 


许多 RDBMS 系统 ， 特 别 是 一 些 NoSQL 系统 ， 支 持 复杂 的 数据 类 型 。Presto 支持 其 中 的 一 


些 集合 数据 类 型 ， 如 表 8-7 所 示 。 它 还 提供 对 UNNEST 操作 的 支持 ， 参 见 9.14 市 。 


表 8-7: 集合 数据 类 型 








集合 数据 类 型 示 例 

ARRAY ARRAY[ apples, oranges, pears] 

MAP MAP(ARRAY[a, b, c]. ARRAY[1, 2, 3]) 
JSON {"a":1,"b":2,"c":3} 

ROW ROW(1, 2, 3) 
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8.9.2 ”时 态 数据 类 型 
表 8-8 描述 了 时 态 数据 类 型 ， 即 与 日 期 和 时 间 相 关 的 数据 类 型 。 
表 8-8: 时 态 数据 类 型 


























类 型 描 述 示 例 

DATE 包 仿 年、 月、 日 的 日 历 日 其 DATE '1983-10-19' 

TIME 包含 时 、 分 、 秒 、 毫 秒 的 时 间 TIME '02:56:15.123， 

TIME WITH TIMEZONE 包含 时 、 分 、 秒 、 毫 秒 的 时 间 ， 包 括 一 个 时 区 一 

TIMESTAMP 一 个 日 期 和 时 间 一 

TIMESTAMP NITH TIMEZONE 一 个 日 期 和 时 间 ， 包 含 时 区 一 

INTERVAL YEAR TO MONTH ”间隔 时 间 跨 度 为 年 、 月 INTERVAL '1-2' YEAR TO MONTH 
INTERVAL DAY TO SECOND ”间隔 时 间 跨 度 为 天 、 时 、 分 、 秒 和 毫秒 INTERVAL '5' DAY to SECOND 








在 Presto 中 ，TIMESTAMP 由 Java Instant 类 型 表示 ， 代 表 了 相对 于 Java epoch 前 后 的 时 间 
量 。 值 被 解析 并 以 不 同 的 格式 显示 ， 因 此 对 终端 用 户 来 说 应 该 是 透明 的 。 








对 于 不 包含 时 区 信息 的 类 型 ， 值 会 根据 Presto 会 话 的 时 区 进行 解析 和 显示 ; 对 于 包含 时 区 
信息 的 类 型 ， 值 会 使 用 相应 时 区 来 解析 并 显示 。 








Presto 可 以 将 字符 串 解 析 成 TIMESTAMP、TIMESTAMP WITH TIMEZONE、TIME、TIME WITH TIMEZONE 
或 DATE。 表 8-9 到 表 8-11 描述 了 可 解析 为 时 间 的 格式 。 如 果 你 想 使 用 ISO 8601 规范 ， 可 
以 使 用 from_iso8601_timestamp 或 from_iso8601_date 国 数 。 





表 8-9: 可 解析 为 时 间 戳 数据 类 型 的 字符 串 格式 





TIMESTAMP TIMESTAMP WITH TIMEZONE 
yyyy-M-d yyyy-M-d ZZZ 

yyyy-M-d H:m yyyy-M-d H:m ZZZ 
yyyy-M-d H:m:s yyyy-M-d H:m:s ZZZ 


yyyy-M-d H:m:s.SSS yyyy-M-d H:m:s.SSS ZZZ 


表 8-10: 可 解析 为 时 态 数据 类 型 的 字符 串 格式 





TIME TIMESTAMP WITH TIMEZONE 
H:m H:m ZZZ 
Hi:m:s Hsm:s .ZZZ 


Hemis.S55 Himis.5s$ Z2Z 


表 8-11: 可 解析 为 日 期 数据 类 型 的 字符 串 格式 


DATE 





YYYY-MM-DD 


当 打 印 TIMESTAMP、TIMESTAMP WITH TIMEZONE、TIME、TIME WITH TIMEZONE 或 DATE 的 输出 








时 ，Presto 使 用 表 8-12 中 的 输出 格式 。 如 果 你 想 以 严格 的 ISO 8601 格式 输出 ， 可 以 使 用 





to_iso8601 国 数 。 


表 8-12: 时 间 输 出 格式 





数据 类 型 格 式 

TIMESTAMP yyyy-MM-dd HH:mm:ss.S9S ZZZ 
TIMESTAMP NITH TIMEZONE yyyy-MM-dd HH:mm:ss.SSS ZZZ 
TIME yyyy-MM-dd HH:mm:ss.S9S ZZZ 
TIME WITH TIMEZONE yyyy-MM-dd HH:mm:ss.SSS ZZZ 
DATE YYYY-MM-DD 

1. 时 区 


时 区 添加 了 额外 的 重要 信息 。Presto 支持 TIME WITH TIMEZONE， 但 通常 最 好 使 用 包 名 


的 DATE 或 TIMESTAMP 类 型 ， 这 样 可 以 用 DATE 格式 计算 夏令 时 。 
以 下 是 一 些 时 区 字符 串 的 示例 : 


。 America/New_York 

。 America/Los_Angeles 
。 Europe/Warsaw 

。 +08:00 

。 -10:00 











下 面 是 一 些 例子 : 





SELECT TIME '02:56:15 UTC ' ; 
_CoL0 

02:56:15.000 UTC 

(1 row) 


SELECT TIME '02:56:15 UTC' AT TIME ZONE 'America/Los_Angeles'; 
_col0 


18:56:15.000 America/Los_Angeles 


SELECT TIME '02:56:15 UTC' AT TIME ZONE '-08:00°'; 
_col0 
18:56:15.000 -08:00 
(1 row) 


SELECT TIMESTAMP '1983-10-19 07:30:05.123'; 
_col0 

1983-10-19 07:30:05.123 

(1 row) 
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SELECT TIMESTAMP '1983-10-19 07:30:05.123 America/New_York' AT TIME ZONE "UTC ' 
_col0 


1983-10-19 11:30:05.123 UTC 
(1 row) 


2. 时 间 间 隔 
如 表 8-13 和 表 8-14 所 示 ， 数 据 类 型 INTERVAL 可 以 是 YEAR TO MONTH 或 DAY TO SECOND。 


表 8-13: YEAR TO MONTH 的 时 间 间 隔 


YEAR TO MONTH 





INTERVAL '<years>-<months>' YEAR TO MONTH 
INTERVAL '<years>' YEAR TO MONTH 

INTERVAL '<years>' YEAR 

INTERVAL '<months>' MONTH 


表 8-14: DAY TO SECOND 的 时 间 间 隔 


DAY TO SECOND 
INTERVAL '<days> <time>' DAY TO SECOND 





INTERVAL '<days>' DAY TO SECOND 
INTERVAL '<days>' DAY 

INTERVAL '<hours>' HOUR 
INTERVAL '<minutes>' MINUTE 
INTERVAL '<seconds>' SECOND 





下 面 的 例子 展示 了 我 们 介绍 过 的 一 些 行为 : 











SELECT INTERVAL '1-2' YEAR TO MONTH; 
_col0 


_col0 


SELECT INTERVAL '4-1' DAY TO SECOND; 
Query xyz failed: Invalid INTERVAL DAY TO SECOND value: 4-1 


SELECT INTERVAL '4' DAY TO SECOND; 
_col0 

4 00:00:00.000 

(1 row) 





SELECT INTERVAL '4 01:03:05.44' DAY TO SECOND 
_col0 


4 01:03:05.440 
(1 row) 


SELECT INTERVAL '05.44' SECOND; 
_col0 


0 00:00:05.440 
(1 row) 


8.9.3 ”类 型 转换 
有 时 需要 将 值 或 字符 串 显 式 地 转换 为 不 同 的 数据 类 型 ， 这 就 是 所 谓 的 类 型 转换 (type 
casting)， 它 由 CAST 函数 执行 : 














CAST(value AS type) 


如 果 需 要 将 日 期 与 字符 串 进行 比较 : 


SELECT * 

FROM hive.web.page_views 

WHERE view date > '2019-01-01'; 

Query failed: line 1:42: '>' cannot be applied to date, varchar(10) 


这 个 查询 会 失败 ， 因 为 Presto 没有 大 于 (>) 比较 运算 符 ， 所 以 不 知道 如 何 比较 日 期 和 字 
符 串 。 但 是 ， 它 的 比较 函数 能 够 比较 两 个 日 期 。 因 此 ， 我 们 需要 使 用 CAST 函数 来 强制 转换 
其 中 的 一 个 类 型 。 在 这 个 例子 中 ， 我 们 将 字符 串 转 换 为 日 期 : 








SELECT * 
FROM hive.web.page_views 
WHERE view date > CAST('2019-01-01' as DATE); 


view time | user_id | page url | view data | country 
------------------------ +---------+----------+------------+--------- 
2019-01-26 20:40:15.477 | 2 | http:// | 2019-01-26 | US 


2019-01-26 20:41:01.243 | 3 | http:// | 2019-01-26 | US 





Presto 提供 了 另 一 个 转换 函数 一 一 try_cast。 它 尝试 执 行 类 型 转换 ， 但 与 失败 后 会 报错 的 
CAST 不 同 ，try_cast 会 返回 NULL 值 ， 这 在 不 需要 处 理 错误 时 很 有 用 : 


























try_cast(vaLue AS type) 


举 个 例子 ， 让 我 们 把 字符 字面 值 强制 转换 为 数字 类 型 : 


SELECT cast('1' AS integer); 
_col0 
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SELECT cast('a' as integer); 


Query failed: Cannot cast 'a' to INT 


SELECT try_cast('a' as integer); 
_col0 


8.10 ” SELECT 语句 基础 


SELECT 语句 非常 重要 ， 它 允许 你 以 表 的 格式 从 一 个 或 多 个 表 中 返回 数据 ， 也 可 以 仅仅 返 
一 行 或 一 个 值 。 








回 








Presto 的 SELECT 查询 更 加 复杂 ， 因 为 它 可 以 包含 来 自 不 同 catalog 和 schema 的 表 ， 而 这 些 
是 完全 不 同 的 数据 源 。 你 在 7.6 节 中 已 经 了 解 了 这 一 点 。 


下 我 们 将 深入 细节 ， 全 面 了 解 其 能 力 。 让 我 们 从 语法 概述 开始 : 











下 











[ WITH with_query [, ...] ] 

SELECT [ ALL | DISTINCT ] select expr [, ...] 

[ FROM from item [，...] ] 

[ WHERE condition ] 

[ GROUP BY [ ALL | DISTINCT ] grouping_element [, ...] ] 

[ HAVING condition] 

[ { UNION | INTERSECT | EXCEPT } [ ALL | DISTINCT ] select ] 
[ ORDER BY expression [ ASC | DESC ] [, ...] ] 

[ LIMIT [ count | ALL ] ] 


select_expr 表示 查询 以 表 列 、 派 生 表 列 、 常 量 或 一 般 表 达 式 的 形式 返回 的 数据 ， 其 形式 
为 零 行 、 一 行 或 多 行 。 一 般 表 达 式 可 以 包括 函数 、 操 作 符 、 列 和 常量 。 你 可 以 只 用 SELECT 
select_expr 来 运行 一 个 查询 ， 它 的 作用 仅 限 于 测试 。 

SELECT 1, 1+1, upper(' lower'); 

_col0 | _col1 | _col2 


a ee 
宇 省 2 | LOWER 


SELECT select_expr [，...] FROM from_iten 是 最 基本 的 查询 形式 。 它 允许 你 从 一 个 底层 
表 中 取出 所 有 的 数据 ， 或 者 只 取出 一 些 列 。 它 还 允许 你 对 底层 数据 使 用 计算 表达 式 。 





假设 我 们 有 两 个 表 (也 称 为 两 组 关系 ) nation 和 customer。 这 些 例 子 取 自我 们 在 6.3 市 
中 讨论 过 的 TPC-H 数据 集 。 简 洁 起 见 ， 示 例 表 只 截取 了 几 行 和 儿 列 显示 。 在 本 章 的 多 个 
select 查询 例子 中 ， 我 们 都 将 使 用 这 些 数据 。 


你 可 以 从 sf1 schema 中 的 nation 表 返 回 所 选择 列 的 数据 : 











A 
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SELECT nationkey, name, regionkey 


FROM tpch.sf1.nation; 
nationkey | name 
----------- + 
| ALGERIA 

| ARGENTINA 
| BRAZIL 

| CANADA 

| EGYPT 

| ETHIOPIA 


或 是 从 customer 表 获 得 一 些 数据 : 





SELECT custkey, nationkey, phone, acctbal, mktsegment 
FROM tpch.tiny.customer; 


custkey | nationkey | 

ve a 
751 | 0 | 
752 | 8 | 
753 | 17 | 
754 | 0 | 
755 | 16 | 
756 | 14 | 
757 | 3 | 
758 | 17 | 


phone | acctbal | mktsegment 
a pe 
10-658-550-2257 | 2130.98 | FURNITURE 
18-924-993-6038 | 8363.66 | MACHINERY 
27-817-126-3646 | 8114.44 | HOUSEHOLD 
10-646-595-5871 | -566.86 | BUILDING 
26-395-247-2207 | 7631.94 | HOUSEHOLD 
24-267-298-7503 | 8116.99 | AUTOMOBILE 
13-704-408-2991 | 9334.82 | AUTOMOBILE 
27-175-799-9168 | 6352.14 | HOUSEHOLD 


除了 单纯 地 返回 所 选择 的 数据 ， 我 们 还 可 以 用 函数 进行 数据 转换 并 返回 结果 : 








Le 


SELECT acctbal, round(acctbal) FROM tpch.sf1.customer; 


acctbal | _coll 


a a 
7470.96 | 7471.0 
8462.17 | 8462.0 
2757.45 | 2757.0 
-588.38 | -588.0 
9091.82 | 9092.0 
3288.42 | 3288.0 
2514.15 | 2514.0 
2259.38 | 2259.0 

-716.1 | -716.0 
7462.99 | 7463.0 
(10 rows) 


8.11 WHERE 子 铝 





在 SELECT 查询 中 可 以 使 用 WHERE 子 句 指定 过 滤 条 件 。 它 由 一 个 结果 为 TRUE、FALSE 或 


UNKNOWN 的 条 件 所 组 成 。 在 执行 查询 的 过 程 中 ， 该 条 件 对 每 一 行 求 值 。 如 果 结 果 不 等 于 
TRUE， 该 行将 被 跳 过 且 不 会 出 现在 结果 集中 否则， 该 行将 作为 结果 集 的 一 部 分 返回 给 用 














户 或 用 于 进一步 处 理 。 
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WHERE 子 名 的 条 件 由 一 个 或 多 个 布尔 表达 式 组 成 ， 这 些 表达 式 由 AND 和 OR 相连 。 


SELECT custkey, acctbal 
FROM tpch.sf1.customer WHERE acctbal < 0; 
custkey | acctbal 


75027 

75028 | -222.92 
75034 | -679.38 
75037 | -660.07 


SELECT custkey, acctbal FROM tpch.sf1.customer 
WHERE acctbal > 0 AND acctbal < 500; 
custkey | acctbal 


75011 | 165.71 
75012 | 41.65 
75021 | 176..2 
75022 | 348.24 
75026 | 78.64 
75084 | 18.68 
75107 | 314.88 


WHERE 子 句 的 条 件 很 重要 ， 因 为 它 可 用 于 多 种 查询 优化 。 在 4.8 市 中 ， 你 可 以 了 解 更 多 关 
于 查询 优化 的 内 容 。 当 查询 多 个 表 时 ， 你 可 以 通过 WHERE 子 句 中 的 条 件 将 它们 连接 起 来 。 








Presto 使 用 这 些 信 息 来 决定 高 效 的 查询 执行 计划 。 


8.12 GROUP BY 和 HAVING 子 铝 


GROUP BY 和 HAVING 子 句 在 分 析 型 查询 中 非常 常用 。GROUP BY 用 于 将 具有 相同 值 的 行 合并 


成 一 行 。 


SELECT mktsegment 

FROM tpch.sf1.customer 
GROUP BY mktsegment; 
mktsegment 

MACHINERY 

AUTOMOBILE 

HOUSEHOLD 

BUILDING 

FURNITURE 

(5 rows) 


下 





对 于 Presto 中 的 分 析 型 查询 ，GROUP BY 经 党 与 聚合 国 数 相 结合 。 这 些 国 数 将 每 一 组 的 数据 





聚合 成 一 个 值 。 下 面 的 查询 计算 按 细 分 市 场 分 组 后 每 一 组 内 所 有 客户 的 全 部 账户 余额 。 














SELECT mktsegment, round(sum(acctbal) / 1000000, 3) AS acctbal_millions 


FROM tpch.sf1.customer 

GROUP BY mktsegment; 

mktsegment | acctbal_millions 
Ss en 


MACHINERY | 134.439 
AUTOMOBILE | 133.867 
BUILDING | 135.889 
FURNITURE | 134.259 
HOUSEHOLD | 135.873 


即使 不 使 用 GROUP BY 子 句 ， 也 可 以 使 用 聚合 函数 。 在 这 种 情况 下 ， 
输入 ， 因 此 ， 我 们 可 以 计算 出 全 部 账户 的 总 余额 : 


SELECT round(sum(acctbal) / 1000000, 3) AS acctbal_millions 
FROM tpch.sf1.customer; 
acctbal_millions 


674.327 











整个 表 作为 聚合 函数 的 


HAVING 子 句 类 似 于 WHERE 子 句 。 它 对 每 一 条 记录 进行 求 值 ， 只 有 当 结 果 为 TRUE 时 才 计 入 该 


记录 。HAVING 子 句 在 GROUP BY 之 后 求 值 ， 并 作用 于 分 组 后 的 行 ， 
BY 之 前 求 值 的 ， 并 作用 于 单个 行 。 


下 面 是 完整 的 查询 : 

















SELECT mktsegment, 
round(sum(acctbal), 1) AS acctbal_per_mktsegment 
FROM tpch.tiny.customer 
GROUP BY mktsegment 
HAVING round(sum(acctbal), 1) > 5283.0; 
mktsegment | acctbaL_per_mktsegment 
EE i 


BUILDING | 1444587.8 
HOUSEHOLD | 1279340.7 
AUTOMOBILE | 1395695.7 
FURNITURE | 1265282.8 
MACHINERY | 1296958.6 
(5 rows) 





下 面 是 在 已 分 组 的 数据 上 进行 条 件 过 着 : 











SELECT mktsegment， 
round(sum(acctbal), 1) AS acctbaL_per_mktsegment 
FROM tpch .titny.customer 
GROUP BY mktsegment 
HAVING round(sum(acctbaL)，1) > 1300000; 
mktsegment | acctbaL_per_mktsegment 
a ee ee 


AUTOMOBILE | 1395695.7 
BUILDING | 1444587.8 
(2 rows) 


而 WHERE 子 句 是 在 GROUP 
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8.13 ORDER BY 子 句 和 LINMIT 子 名 

ORDER BY 子 句 含有 用 于 对 结果 进行 排序 的 表达 式 。 该 子 句 可 以 包含 多 个 表达 式 ， 是 从 左 到 右 
进行 计算 的 。 通 常 ， 当 左边 的 表达 式 计算 结果 中 出 现 重复 值 时 ， 会 使 用 右边 的 表达 式 来 确定 
顺序 。 表 达 式 可 以 指定 排序 顺序 为 升序 (例如 4~Z、1~100) 或 降序 (例如 和 4、100~1)。 


























LIMIT 子 句 用 于 限制 返回 的 行 数 ， 并 且 可 以 与 ORDER BY 子 句 结合 使 用 来 查找 有 序 集 的 前 N 
个 结果 : 


SELECT mktsegment, 
round(sum(acctbal), 2) AS acctbal_per_mktsegment 

FROM tpch.sf1.customer 

GROUP BY mktsegment 

HAVING sum(acctbal) > 0 

ORDER BY acctbaL_per_mktsegment DESC 

LIMIT 1; 

mktsegment | acctbaL_per_mktsegment 

ES IE 

MACHINERY | 19851.2 

(1 row) 


通常 情况 下 ，Presto 能 够 将 ORDER BY 和 LIMIT 作为 一 个 组 合 步骤 来 优化 执行 ， 而 不 是 分 开 
执行 。 

LIMIT 可 以 不 使 用 ORDER BY 子 句 ,但 大 多 数 情 况 下 它们 是 一 起 使 用 的 。 原 因 是 SQL 标准 
(继而 也 是 Presto 的 标准 ) 并 不 保证 结果 的 顺序 。 这 就 意味 着 ， 在 没有 ORDER BY 子 句 的 情 
况 下 使 用 LIMIT， 多 次 运行 同一 个 查询 可 能 返回 不 同 的 、 非 确定 性 的 结果 。 这 种 情况 在 像 
Presto 这 样 的 分 布 式 系统 中 更 加 明显 。 











8.14 JOIN 语 铝 


SQL 可 以 让 你 借助 JOIN 语句 来 组 合 不 同 表 的 数据 。Presto 支持 SQL 标准 的 JOIN 语句 ， 如 
INNER JOIN、LEFT OUTER JOIN RIGHT OUTER JOIN、FULL OUTER JOIN、FULL OUTER JOIN 和 
CROSS JOIN 等 。 对 JOIN 语句 的 完整 介绍 超出 了 本 书 的 范围 ， 但 在 其 他 许多 书 中 有 所 涉及 。 




















让 我 们 来 看 几 个 例子 ， 并 探讨 与 Presto 相关 的 具体 细节 : 


SELECT custkey, mktsegment, nation.name AS _ nation 
FROM tpch.tiny.nation JOIN tpch.tiny.customer 
ON nation.nationkey = CUstomer .nationkey; 
custkey | mktsegment | nation 
ee a 
108 | BUILDING | ETHIOPIA 
101 | MACHINERY | BRAZIL 
106 | MACHINERY | ARGENTINA 
(3 rows) 
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Presto 可 以 使 用 隐 式 Cross Join: 用 一 个 以 逗号 分 隔 表 名 的 列表 定义 Join 在 一 起 的 表 ， 并 用 
WHERE 子 句 来 定义 Join 条 件 。 


SELECT custkey, mktsegment, nation.name AS _ nation 
FROM tpch.tiny.nation, tpch.tiny.customer 
WHERE nation.nationkey = customer .nationkey; 
custkey | mktsegment | name 
ee et 

108 | BUILDING | ETHIOPIA 

106 | MACHINERY | ARGENTINA 

101 | MACHINERY | BRAZIL 


Join 是 查询 处 理 中 开销 最 大 的 操作 之 一 。 当 一 个 查询 中 存在 多 个 Join 时 ， 可 以 以 不 同 的 顺 
序 处 理 这 些 Join。TPCH 基准 中 的 Q09 查询 就 是 一 个 很 好 的 复杂 查询 示例 : 








SELECT 
nation, 
0_year, 
sum(amount) AS sum_profit 
FROM ( 
SELECT 
N.name AS nation, 
extract(YEAR FROM o.orderdate)AS o_year， 
l.extendedprice * (1 - l.discount) - ps.supplycost * L.quantity AS amount 
FROM 
part AS p， 
supplier AS s, 
lineitem AS 1, 
partsupp AS ps， 
orders AS o0， 
nation AS n 
WHERE 
s.suppkey = L.suppkey 
AND ps.suppkey = L.suppkey 
AND ps.partkey = L.partkey 
AND p.partkey = L.partkey 
AND o.orderkey = L.orderkey 
AND s.nationkey = n.nationkey 
AND p.name LIKE '%green%' 
) AS profit 
GROUP BY 
nation, 
0_year 
ORDER BY 
nation, 
o_year DESC; 


8.15 UNION、INTERSECT 和 EXCEPT 子 名 


UNION、INTERSECT 和 EXCEPT 在 SQL 中 叫 作 集 合 操作 。 它 们 用 于 将 多 个 SQL 语句 中 的 数据 
组 合成 一 个 结果 。 
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虽然 你 可 以 使 用 Join 和 条 件 来 获得 相同 的 语义 ， 但 通常 使 用 集合 操作 更 容易 。 在 Presto 中 
执行 集合 操作 比 在 其 他 等 价 的 SQL 中 执行 它们 更 高 效 。 

在 学 习 集 合 操 作 的 语义 时 ， 从 基本 的 整数 开始 会 比较 容易 。 首 先是 UNION， 它 可 以 合并 所 
有 的 值 并 去 除 重复 的 值 : 





SELECT * FROM (VALUES 1, 2) 
UNION 
SELECT * FROM (VALUES 2, 3); 
_col0 


(3 rows) 


UNION ALL 将 保留 重复 值 : 


SELECT * FROM (VALUES 1，2) 
UNION ALL 

SELECT * FROM (VALUES 2, 3); 
_CoL0 


(LU 


(4 rows) 

















INTERSECT 返回 两 个 查询 中 都 有 的 元 素 作为 结果 集 : 


SELECT * FROM (VALUES 1, 2) 
INTERSECT 

SELECT * FROM (VALUES 2, 3); 
_CoL0 


EXCEPT 返回 第 一 个 查询 中 去 除 第 二 个 查询 中 的 元 素 后 剩 下 的 元 素 : 


SELECT * FROM (VALUES 1，2) 
EXCEPT 
SELECT * FROM (VALUES 2, 3); 
_CoL0 


每 个 集合 操作 符 都 支持 使 用 可 选 的 修饰 符 : DISTINCT 或 ALL。DISTINCT 关键 字 是 默认 的 ， 
无 须 指 定 ，ALL 关键 字 表 示 保 留 重 复 值 。 目 前 ，INTERSECT 和 EXCEPT 运算 符 不 支持 ALL。 
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8.16 分 组 操作 


你 已 经 学 习 了 基本 的 GROUP BY 和 聚合 操作 。Presto 还 支持 SQL 标准 中 的 高 级 分 组 操作 。 
使 用 GROUPING SETS、CUBE 和 ROLLUP， 用 户 可 以 在 单个 查询 中 对 多 个 集合 进行 聚合 操作 。 


分 组 集合 允许 你 在 同一 个 查询 中 按照 多 个 列 的 列表 进行 分 组 。 假 设 我 们 想 按照 (state， 
city，street)、(state，city) 和 (state) 进行 分 组 。 如 果 没 有 分 组 集合 ， 则 你 必须 针对 每 
种 分 组 运行 单独 的 查询 ， 然 后 再 合并 结果 ; 而 有 了 分 组 集合 ，Presto 可 以 根据 每 个 集合 计 
算 分 组 ， 结 果 schema 是 所 有 集合 中 列 的 联合 。 对 于 不 属于 组 的 列 ， 将 添加 NULL。 

















ROLLUP 和 CUBE 可 以 用 GROUPING SETS 来 表示 ， 这 是 它 的 一 种 简写 。ROLLUP 用 于 生成 基于 层 
次 结构 的 分 组 集合 ， 例 如 ROLLUP(a，b，c) 生成 分 组 集合 (a, b,c)、(a, b)、(a)、(); 而 
CUBE 则 操作 生成 所 有 可 能 的 分 组 组 合 ， 例 如 CUBE(a，b，c) 生成 分 组 集合 (3，b，c)、(a，b)、 
(a, €). (b, c), (a), (b)、 (c)、()。 





假设 你 想 计算 每 个 细 分 市 场 的 账户 余额 总 额 ， 同 时 计算 所 有 细 分 市 场 的 账户 总 余额: 








SELECT mktsegment, 
round(sum(acctbal), 2) AS total_acctbal, 
GROUPING(mktsegment) AS id 

FROM tpch .titny.customer 

GROUP BY ROLLUP (mktsegment) 

ORDER BY id, total_acctbal; 

mktsegment | total _acctbal | id 


a i i 
FURNITURE | 1265282.8 | 0 
HOUSEHOLD | 1279340.66 | 0 
MACHINERY | 1296958.61 | 0 
AUTOMOBILE | 1395695.72 | 0 
BUILDING | 1444587.8 | 0 
NULL | 6681865.59 | 1 

(6 rows) 


借助 ROLLUP 可 以 计算 不 同 分 组 的 聚合 。 在 这 个 例子 中 ， 前 五 行 代表 每 个 细 分 市 场 的 账户 余 
额 总 和 ， 最 后 一 行 代表 所 有 账户 余额 的 总 和 。 因 为 这 一 分 组 中 没有 mktsegment 列 ， 所 以 填 
充 NULL 值 。GROUPING 函数 用 于 标识 哪些 行 属于 哪个 组 。 



































如 果 没 有 ROLLUP， 则 你 必须 运行 两 个 单独 的 查询 ， 然 后 把 它们 组 合 在 一 起 。 在 这 个 例子 
中 ， 我 们 可 以 使 用 UNION， 它 可 以 帮助 你 从 概念 上 理解 ROLLUP 的 作用 。 




















SELECT mktsegment， 
round(sum(acctbal), 2) AS total_acctbal, 
0 AS id 

FROM tpch .titny.customer 

GROUP BY mktsegment 

UNION 

SELECT NULL, round(sum(acctbal), 2), 1 
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FROM tpch.tiny.customer 
ORDER BY id, total_acctbal; 
mktsegment | total _acctbal | id 


ee Ee pa 

FURNITURE | 1265282.8 | 0 
HOUSEHOLD | 1279340.66 | 0 
MACHINERY | 1296958.61 | 0 
AUTOMOBILE | 1395695.72 | 0 
BUILDING | 1444587.8 | 0 
NULL | 6681865.59 | 1 
(6 rows) 


8.17 MITH 子 名 


WITH 子 句 用 于 在 单个 查询 中 定义 一 个 内 联 视 图 。 这 通常 可 以 使 查询 更 可 读 ， 因 为 查询 可 能 
需要 多 次 包含 相同 的 散 套 查询 。 





在 下 面 这 个 查询 中 ， 我 们 查找 有 哪些 细 分 市 场 的 账户 总 余额 大 于 细 分 市 场 的 平均 数 : 











SELECT mktsegment, 
total_per_mktsegment, 
average 
FROM 
( 
SELECT mktsegment, 
round(sum(acctbal)) AS totaL_per_mktsegment 
FROM tpch.tiny.customer 


GROUP BY 1 
)， 
( 
SELECT round(avg(totaL_per_mktsegment)) AS average 
FROM 
( 
SELECT mktsegment, 
sum(acctbal) AS total_per_mktsegment 
FROM tpch.tiny.customer 
GROUP BY 1 
) 
) 

WHERE total_per_mktsegment > average; 
mktsegment | totaL_per_mktsegment | average 
ee a a ah 
BUILDING | 1444588.0 | 1336373.0 
AUTOMOBILE | 1395696.0 | 1336373.0 

(2 rows) 





可 以 看 到 ， 这 个 查询 有 点 复杂 。 使 用 WITH 子 句 ， 可 以 将 其 简化 成 : 


WITH 
total AS ( 
SELECT mktsegment, 
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round(sum(acctbal)) AS totaL_per_mktsegment 
FROM tpch .tiny.customer 
GROUP BY 1 
)， 
average AS ( 
SELECT round(avg(total_per_mktsegment)) AS average 
FROM total 
) 
SELECT mktsegment， 
total_per_mktsegment, 


average 
FROM total, 

average 
WHERE total_per_mktsegment > average; 
mktsegment | total_per_mktsegment | average 
es PR 
AUTOMOBILE | 1395696.0 | 1336373.0 
BUILDING | 1444588.0 | 1336373.0 
(2 rows) 





在 这 个 例子 中 ， 第 二 个 内 联 视图 引用 了 第 一 个 视图 。 可 以 看 到 WITH 内 联 视 图 被 执行 了 两 
次 。 目 前 ，Presto 并 不 会 将 结果 物化 以 便 在 多 个 执行 中 共享 。 事 实 上 ， 这 需要 根据 查询 的 
复杂 程度 来 进行 基于 代价 的 决策 ， 因 为 多 次 执行 一 个 查询 可 能 比 先 保 存 再 检索 结果 更 高 效 。 


8.18 子 查 询 


Presto 支持 许多 常见 的 子 查 询 用 法 。 子 查询 是 一 个 表达 式 ， 它 可 以 作为 更 高 级 别 的 表达 式 
的 输入 。 在 SQL 中 ， 子 查询 可 以 分 为 三 类 : 


。 标量 子 查询 
。 ANY/SOME 
。 ALL 












































每 个 类 别 都 有 两 种 类 型 : 非 关 联 子 查询 和 关联 子 查 询 。 关 联 子 查询 指引 用 子 查 询 之 外 的 其 
他 列 的 子 查询 。 





8.18.1 标量 子 查询 
标量 子 查询 指 返回 单个 值 (一 行 一 列 ) 的 子 查 询 : 





SELECT regionkey, name 
FROM tpch.tiny.nation 
WHERE regionkey = 
(SELECT regionkey FROM tpch.tiny.region WHERE name = 'AMERICA'); 
regionkey | name 
a a 
1 | ARGENTINA 
1 | BRAZIL 
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1 | CANADA 

1 | PERU 

1 | UNITED STATES 
(5 rows) 

















在 这 个 标量 子 查询 示例 中 ， 子 查询 的 结果 是 1，WHERE 条 件 实质 上 变 成 了 regionkey = 1， 
并 且 对 每 行进 行 计算 。 逻 辑 上 来 说 ， 对 nation 表 中 的 每 一 行 都 要 进行 子 查 询 的 计算 ， 例 
如 ， 对 100 行 计算 100 次 。 然 而 ，Presto 足够 智能 : 它 只 对 子 查询 进行 一 次 计算 ， 之 后 都 
使 用 静态 值 。 





8.18.2 ” EXISTS 子 查 询 

EXISTS 子 查询 表示 如 果 有 任何 记录 则 结果 为 true。 这 些 查 询 通常 作为 关联 子 查 询 使 用 。 虽 
然 对 于 EXISTS 来 说 ， 非 关联 子 查 询 也 是 可 以 的 ， 但 这 并 不 实用 ， 因 为 任何 返回 单行 的 东西 
都 会 计算 为 true: 




















SELECT name 
FROM tpch.tiny.nation 
WHERE regionkey IN (SELECT regionkey FROM tpch.tiny.region) 


EXISTS 子 查询 的 另 一 种 常见 形式 是 NOT EXISTS。 不 过 这 只 是 对 EXISTS 子 查询 的 结果 取 否 。 


8.18.3 ”集合 比较 子 查询 
ANY 子 查 询 的 形式 为 表达 式 运算 符 量 化 符 〈 子 查询 )。 有 效 的 运算 符 的 值 是 <、>、<=、 盖 、 
>=、= 或 二 。 也 可 以 使 用 SOME 来 代替 ANY。 这 种 类 型 的 查询 最 常见 的 另 一 个 形式 是 表达 式 
IN 子 查询 ， 它 等 价 于 表达 式 = ANY 子 查询 。 

SELECT name 


FROM nation 
WHERE regionkey = ANY (SELECT regionkey FROM region) 





这 个 查询 等 价 于 下 面 的 查询 ， 其 中 IN 是 个 简写 : 











SELECT name 
FROM nation 
WHERE regionkey IN (SELECT regionkey FROM region) 





该 子 查 询 必 须 恰好 返回 一 个 列 。Presto 目前 不 支持 行 表达 式 子 查询 ， 即 不 支持 多 列 比较 。 
从 语义 上 来 说 ， 对 于 外 部 查询 的 给 定 行 ， 计 算 子 查询 ， 并 将 表达 式 与 子 碍 询 的 每 个 结果 行 
比较 。 如 果 这 些 比 较 中 至 少 有 一 个 比较 结果 为 TRUE， 则 ANY 子 查询 条 件 的 结果 为 TRUE， 如 
果 设 有 一 个 比较 结果 为 TRUE， 则 结果 为 FALSE。 对 外 部 查询 的 每 一 行 都 会 重复 进行 这 样 的 
计算 。 


注意 一 些 细微 的 差别 。 如 果 表 达 式 是 NULL， 那 么 IN 表达 式 的 结果 就 是 NULL。 此 外 ， 如 果 



























































A 
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没有 比较 结果 为 TRUE， 但 子 查询 中 存在 一 个 NULL 值 ， 那 么 IN 表达 式 的 结果 是 NULL。 在 大 
多 数 情况 下 这 不 会 被 注意 到 ， 因 为 结果 无 论 是 FALSE 还 是 NULL 都 会 导致 过 滤 该 行 。 但 是 ， 
如 果 这 个 IN 表达 式 是 作为 对 NULL 值 敏 感 的 表达 式 的 输入 〈 例 如 ， 用 NOT 修饰 )， 这 个 差异 
就 会 表现 出 来 。 

ALL 子 查询 的 工作 原理 与 ANY 类 似 。 对 于 外 部 查询 中 的 某 一 行 ， 计 算 子 查询 ， 并 将 表达 式 
与 子 查询 的 每 个 结果 行 比较 。 如 果 所 有 的 比较 结果 都 为 TRUE， 则 ALL 的 结果 为 TRUE， 如果 
至 少 有 一 个 比较 结果 为 FALSE， 则 ALL 的 结果 为 FALSE。 
与 ANY 一 样 ，ALL 也 有 一 些 初 看 起 来 并 不 明显 的 细微 差别 。 当 子 查 询 为 空 且 没有 返回 任何 
行 时 ，ALL 就 会 计算 为 TRUE， 如 果 没 有 一 个 比较 结果 返回 FALSE 且 至 少 有 一 个 比较 结果 返 
回 NULL， 那 么 ALL 的 结果 就 是 NULL。ALL 最 常见 的 另 一 个 形式 是 <> ALL， 等 价 于 NOT IN。 


8.19 从 表 中 删除 数据 


DELETE 语句 可 以 删除 表 中 的 数据 行 。 该 语句 提供 了 一 个 可 选 的 WHERE 子 句 来 指定 删除 哪些 
行 。 若 不 使 用 WHERE 子 句 ， 则 表 中 所 有 数据 都 会 被 删除 : 



























































DELETE FROM tabLe_name [ WHERE condition ] 





有 些 连 接 器 不 支持 删除 或 有 限 支 持 删除 。 例 如 ，Kafka 连接 器 不 支持 删除 ，Hive 连接 器 只 
有 在 WHERE 子 句 指定 了 可 用 于 删除 整个 分 区 的 分 区 键 时 ， 才 支持 删除 : 





DELETE FROM hive.web.page_views 
WHERE View_date = DATE '2019-01-14' AND country = 'US’ 


8.20 小结 


对 你 在 Presto 中 可 以 用 SQL 做 到 的 事 感到 兴 否 了 吗 ? 有 了 本 章 的 知识 ， 你 已 经 可 以 对 
Presto 中 的 任何 数据 进行 复杂 的 查询 ， 并 完成 一 些 相当 复杂 的 分 析 。 


当然 ， 还 有 更 多 内 容 等 着 你 。 请 继续 阅读 第 9 章 ， 了 解 Presto 的 函数 、 运 算 符 和 其 他 功能 。 
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第 9 章 


高 级 SQL 特性 





如 第 8 章 所 述 ， 利 用 SQL 语句 的 强大 功能 ， 可 以 实现 很 多 东西 ， 但 你 对 Presto 中 的 查询 还 
只 是 略 知 皮毛 。 本 章 将 涉及 更 多 的 高 级 特性 ， 如 国 数 、 运 算 符 等 。 


9.1 函数 和 运算 符 介绍 
到 目前 为 止 ， 你 已 经 了 解 了 一 些 基本 的 知识 ， 包 括 catalog、schema、 表 、 数 据 类 型 和 各 种 
SQL 语 名 等。 这些 知识 在 Presto 中 查询 一 个 或 多 个 catalog 的 一 个 或 多 个 表 的 数据 时 非常 
有 用 。 在 那些 例子 中 ， 我 们 主要 借助 表 中 不 同属 性 (或 列 ) 中 的 数据 编写 查询 。 

而 SQL 函数 和 运算 符 的 存在 则 是 为 了 实现 更 复杂 、 全 面 的 SQL 查询 。 本 章 将 重点 介绍 
Presto 所 支持 的 函数 和 运算 符 ， 并 提供 使 用 示例 。 
































SQL 中 的 函数 和 运算 符 在 内 部 等 价 。 函 数 一 般 使 用 的 语法 形式 是 function_name( function_ 
arg1，.…….)， 而 运算 符 使 用 的 是 不 同 语法 ， 类 似 于 编程 语言 和 数学 中 的 运算 符 ， 运算 符 
是 常用 函数 的 语法 缩写 和 改进 形式 。 运 算 符 与 函数 相互 等 价 的 一 个 例子 是 || 运算 符 和 
concat() 函数 ， 二 者 都 是 用 来 连接 字符 串 的 。 


SQL 和 Presto 中 的 运算 符 一 般 有 以 下 两 种 类 型 。 


双 目 运算 符 
双 目 运算 符 取 两 个 操作 数 作为 输入 ， 并 产生 一 个 单 值 结果 。 运 算 符 本 身 定 义 了 操作 数 
的 数据 类 型 必须 是 什么 ， 结 有 果 的 数据 类 型 是 什么 。 双 目 运 算 符 的 格式 是 操作 数 运算 符 
操作 数 。 
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单 目 运算 符 
单 目 运算 符 接收 单个 操作 数 的 输入 ， 并 产生 一 个 单 值 结果 。 与 双 目 运算 符 一 样 ， 运 算 符 
指定 了 操作 数 的 数据 类 型 必须 是 什么 ， 结 果 的 数据 类 型 必须 是 什么 。 单 目 运算 符 写作 运 
算 符 操作 数 。 

对 于 双 目 运算 符 和 单 目 运算 符 ， 输 入 的 操作 数 可 以 是 一 个 运算 符 树 运算 的 结果 。 例 如 ， 在 

2x2x2 中 ， 第 一 个 运算 符 2x 2 的 结果 被 输入 第 二 个 乘法 运算 符 中 。 


在 本 章 的 以 下 几 节 中 ， 你 将 详细 了 解 Presto 所 支持 的 众多 函数 和 运算 符 。 


9.2 标量 函数 和 运算 符 


抽象 地 讲 ，SQL 中 的 标量 函数 将 一 个 或 多 个 单 值 作为 输入 参数 ， 根 据 输 入 的 参数 执行 一 
操作 ， 然 后 产生 一 个 单 值 。 例 如 power(x，p) 函数 返回 x 的 疡 次 需 。 





























SELECT power(2, 3); 
_col0 





当然 ， 你 可 以 用 乘法 运算 符 来 实现 同样 的 目的 ， 在 本 例 中 ，2 x2 x2 也 会 产生 值 8。 但 是 ， 
使 用 函数 可 以 将 多 辑 封 装 起 来 ， 使 其 更 容易 在 SQL 中 重复 使 用 。 此 外 ， 还 能 得 到 其 他 收 
益 ， 比 如 减少 出 错 的 可 能 和 优化 函数 的 执行 。 

















只 要 在 语义 正确 ,标量 函数 可 以 用 在 SQL 语句 中 任何 可 以 使 用 表达 式 的 地 方 。 例 如 ， 你 可 
以 写 一 个 SQL 查询 SELECT * FROM page_views WHERE power(2，3)。 它 可 以 通过 语法 检查 ， 
但 在 语义 分 析 时 会 失败 ， 因 为 power 函数 的 返回 类 型 是 DOUBLE 而 不 是 所 需 的 BOOLEAN 类 
型 。 可 以 将 SQL 查询 写成 SELECT * FROM page_views WHERE power(2，3) = 8， 虽 然 它 可 
能 没有 实际 用 处 ,但 语义 上 是 正确 的 。 


Presto 包含 了 一 组 可 以 立即 使 用 的 内 置 函数 和 运算 符 。 在 本 证 中， 你 了 解 了 常见 用 法 并 着 
重 学 习 了 有 趣 的 部 分 。 我 们 并 没有 列举 每 一 个 函数 和 运算 符 ， 因 为 本 章 无 意 作 为 全 面 的 参 
考 资 料 。 学 习 了 一 些 基 础 知识 后 ， 你 可 以 参考 Presto 文档 来 了 解 更 多 。 











Presto 还 支持 用 户 自 定义 函数 (user-defined function，UDF)， 它 允许 你 使 用 
Java 编写 自己 的 函数 实现 ， 并 在 Presto 中 部 署 这 些 函 数 ， 从 而 在 SQL 查询 
中 执行 它 ， 但 这 超出 了 本 书 的 范围 。 
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9.3 布尔 运算 符 

布尔 运算 符 是 双 目 运算 符 ， 在 SQL 中 用 于 比较 两 个 操作 数 的 值 ， 从 而 产生 TRUE、FALSE 或 
NULL 的 布尔 型 结果 。 这 些 运算 符 ( 见 表 9-1) 最 常用 于 WHERE、HAVING 或 ON 等 条 件 子 句 。 
可 以 在 查询 中 任何 能 够 使 用 表达 式 的 地 方 使 用 它们 。 

表 9-1: 布尔 运算 符 

运算 符 描述 





























< 小 于 
<= 小 于 等 于 
> 大 于 

>= 大 于 等 于 
= 相等 

<> 不 相等 
!= 不 相等 











语法 != 不 属于 标准 SQL， 但 在 各 种 编程 语言 中 普遍 使 用 。 许 多 流行 的 数据 
库 中 也 有 实现 ， 因 此 在 Presto 中 也 提供 了 这 个 语法 以 方便 使 用 。 





























下 面 是 一 些 布尔 运算 符 的 使 用 示例 。 
2 月 某 周 中 飞 离 波士顿 最 佳 日 子 是 哪 一 天 ? 











SELECT dayofweek, avg(depdelayminutes) AS delay 
FROM flights_orc 

WHERE month = 2 AND origincityname LIKE '%Boston%' 
GROUP BY dayofweek 

ORDER BY dayofweek; 


dayofweek | delay 


+ 
| 10.613156692553677 
| 9.97405624214174 
| 9.548045977011494 
| 11.822725778003647 
| 15.875475113122173 
| 11.184173669467787 
| 10.788121285791464 
(7 rows) 


从 2010 年 到 2014 年 ， 每 年 每 个 航空 公司 的 平均 延误 时 间 是 多 少 ? 


SELECT avg(arrdelayminutes) AS avg_arrival delay, carrier 
FROM flights_orc 





WHERE year > 2010 AND year < 2014 


GROUP BY carrier, year; 


avg_arrivaL_deLay 


| 
二 和 
11.755326255888736 | 9E 
12.557365851045104 | AA 
13.39056266711295 | AA 
13.302276406082575 | AA 
6.4657695873247745 | AS 
7.048865559750841 | AS 
6.907012760530203 | AS 
17.008730526574663 | B6 
13.28933909176506 | B6 
16.242635221309246 | B6 


9.4 ”逻辑 运算 符 





在 SQL 和 Presto 中 还 有 三 个 逻辑 运算 符 : AND、0R 和 NOT。 运 算 符 AND 和 0R 是 双 目 运算 符 ， 


因为 它们 接受 两 个 参数 作为 输入 。NOT 是 一 个 单 目 运算 符 ， 它 只 接受 一 个 参数 作为 输入 。 


这 些 逻 辑 运 es 回 单个 布尔 变量 TRUE、FALSE 或 NULL 
(UNKNOWN) 。 通 常 ， ee 就 像 布尔 运算 符 那 样 。 


这 三 个 运算 符 的 概念 与 编程 语言 相似 ， 但 由 于 NULL 值 的 存在 ,语义 有 所 不 同 。 例 如 ，NULL 
AND NULL 不 等 于 TRUE， 而 是 等 于 NULL。 如 采 你 把 NULL 看 作 值 的 缺失 ， 这 就 很 容易 理解 了 。 





























表 9-2 展示 了 运算 符 如 何 处 理 这 三 个 值 。 
表 9-2: AND 和 0R 的 逻辑 运算 

x y X AND y X OR y 
TRUE TRUE TRUE TRUE 
TRUE FALSE FALSE TRUE 
TRUE NULL NULL TRUE 
FALSE TRUE FALSE TRUE 
FALSE FALSE FALSE FALSE 
FALSE NULL FALSE NULL 
NULL TRUE NULL TRUE 
NULL FALSE FALSE NULL 
NULL NULL NULL NULL 





而 对 于 NOT 运算 符 ， 只 要 记 住 NOT NULL 结果 是 NULL， 而 不 是 TRUE 或 FALSE。 
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9.5 ”用 BETWEEN 语 名 选择 范围 

BETWEEN 语句 可 以 看 作 双 目 运算 符 的 特殊 情况 ， 它 定义 了 一 个 范围 。 它 实际 上 等 价 于 由 
AND 连接 起 来 的 两 个 比较 项 ， 所 选 字 段 的 数据 类 型 和 两 个 范围 值 必 须 相 同 。NOT BETWEEN 是 
BETWEEN 的 否定 。 从 结果 也 可 以 看 出 ， 下 面 这 两 个 查询 是 等 价 的 : 

















SELECT count(*) FROM fLights_orc WHERE year BETWEEN 2010 AND 2012; 
_col0 


18632160 
(1 row) 


SELECT count(*) FROM flights_orc WHERE year >= 2010 AND year <= 2012; 
_col0 


18632160 
(1 row) 


9.6 用 IS (NOT) NULL 检 测 值 的 存在 


IS NULL 语句 允许 你 检测 值 是 否 存 在 。 它 可 以 被 认为 是 一 种 特殊 类 型 的 单 目 运算 符 。IS NOT 
NULL 是 其 否定 形式 。 你 可 能 想 统计 一 些 行 ， 但 不 想 统计 没有 值 的 行 。 这 是 因为 这 些 数 据 可 
能 不 完整 或 没有 意义 。 

















例如 ， 要 计算 每 年 飞机 的 平均 延误 时 间 ， 必 须 确保 只 计算 实际 发 生 的 航班 。 这 一 点 体现 在 
airtime 要 有 一 个 值 ， 下 面 这 个 查询 就 券 虑 到 了 这 一 点 


SELECT avg(DepDelayMinutes) AS delay, year 

FROM flights_orc 

WHERE airtime IS NOT NULL and year >= 2015 

GROUP BY year 

ORDER BY year desc; 
delay 


| 

二 
12.041834908176538 | 2019 

| 

| 

| 

| 


13.178923805354275 | 2018 
12.373612267166829 | 2017 
10,51195619395339 | 2016 
11.047527214544516 | 2015 


(5 rows) 


9.7 ”数学 函数 和 运算 符 


使 用 数学 函数 和 运算 符 开 启 了 广泛 的 用 例 ， 并 对 其 中 很 多 用 例 至 关 重 要 。 表 9-3 列 出 了 数 
学 运算 符 ， 表 9-4 列 出 了 数学 函数 。 


































































































运 算 符 描 述 示 例 
二 加 SELECT 1+1 

减 SELECT 2-1 
* 乘 SELECT 2x3 
除 SELECT 9/2 
% 取 模 SELECT 6 % 5 
表 9-4: 常用 数学 函数 
函数 返回 类 型 “描述 示 例 
abs(x) 司 输入 x 的 绝对 值 SELECT abs(-1) 
cbrt(x) DOUBLE x 的 立方 根 SELECT cbrt(9) 
ceiling(x) 司 输 入 将 x 向 上 取 最 接近 的 整数 SELECT ceiling(4.2) 
degrees(x) DOUBLE 将 x 角 从 弧度 转换 为 角度 SELECT degrees(1.047) 
exp(x) DOUBLE e (自然 对 数 的 底 ) 的 x 次 方 SELECT exp(1) 
floor(x) 同 输入 将 x 向 下 取 最 接近 的 整数 SELECT floor(4.2) 
ln(x) DOUBLE x 的 自然 对 数 SELECT ln(exp(1)) 
log(b, x) DOUBLE x 的 以 b 为 底 的 对 数 SELECT log(2, 64) 
log2(x) DOUBLE x 的 以 2 为 底 的 对 数 SELECT log2(64) 
log10(x) DOUBLE x 的 以 10 为 底 的 对 数 SELECT log10(140) 
mod(n, m) 同 输入 取 模 ， 相 当 于 n% m SELECT mod(3, 2) 
power(x, p) DOUBLE xX 的 p 次 方 SELECT pow(2, 6) 
radians(x) DOUBLE 将 x 从 角度 转换 为 弧度 SELECT radians(60) 
round(x) 司 输入 将 x 四舍五入 至 最 接近 的 整数 SELECT round(pi()) 
round(x, qd) 司 输入 将 x 四舍五入 到 小 数 点 后 的 4 位 SELECT round(pi(), 2) 
sqrt(x) DOUBLE x 的 平方 根 SELECT sqrt(64) 
truncate(x) DOUBLE 通过 截断 小 数 点 后 的 数字 将 x 舍 为 整数 SELECT truncate(e()) 
9.8 ”三 角 函 数 
Presto 提供 了 一 组 三 角 函 数 ， 其 参数 类 型 为 弧度 ， 这 组 函数 的 返回 数据 类 型 都 是 DOUBLE。 


























如 有 果 你 想 在 弧度 和 角度 之 间 进 行 转换 ，Presto 提供 了 radians(x) 和 degrees(x) 这 两 个 转换 
函数 。 表 9-5 列 出 了 可 用 的 三 角 图 数 。 


表 9-5: 三 角 函 数 





cos(x) x 的 余弦 
acos(x) x 的 反 余弦 
cosh(x) x 的 双 曲 余弦 
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函 数 描 述 
sin(x) x 的 正弦 
asin(x) x 的 反正 弦 
tan(x) x 的 正切 
atan(x) x 的 反正 切 
atan2(y, x) y/x 的 反正 切 
tanh(x) x 的 双 曲 正切 




















9.9 ”常数 和 随机 函数 


Presto 提供 了 一 组 国 数 ， 它 们 返回 数学 常数 、 概 念 值 或 随机 值 ， 如 表 9-6 所 示 。 














表 9-6: 数学 常数 和 函数 





函数 返回 类 型 ” 描述 示例 
e0) DOUBLE 欧 拉 数 2.718281828459045 
Pit() DOUBLE 圆周 率 3.141592653589793 
infinity() DOUBLE 用 于 表示 无 穷 大 的 Presto 常量 Infinity 

nan() DOUBLE 用 于 表示 不 是 一 个 数字 的 Presto 常量 NaN 

random() DOUBLE 大 于 等 于 0.0 且 小 于 1.0 的 pouBLE 数值 SELECT randon() 
random(n) 同 输入 大 于 等 于 0.0 并 小 于 的 DOUBLE 数值 SELECT random(100) 





9.10 字符 串 函 数 和 运算 符 


字符 串 操作 是 另 一 种 常见 的 用 例 ， 对 此 Presto 提供 了 丰富 的 支持 。|| 操作 符 用 于 将 字符 串 
拼接 起 来 : 
SELECT 'Emily' || ' Grace'; 


_col0 














Emily Grace 
(1 row) 














Presto 提供 了 儿 个 有 用 的 字符 串 函数 ， 如 表 9-7 所 示 。 





表 9-7: 字符 串 函数 

















函 数 返回 类 型 描述 示 例 
chr(n) VARCHAR 返回 Unicode 码 点 nn 代表 的 SELECT chr(65) 
单个 字符 
codepoint(string) INTEGER 返回 一 个 字符 串 的 Unicode SELECT codepoint(4) 
concat(string1, VARCHAR 连接 两 个 字符 串 SELECT concat(Emily, ' , ‘Grace); 
.., StringN) 














































































































函 数 返回 类 型 描 述 示 例 
length( string) BIGINT 返回 一 个 字符 串 的 长 度 SELECT length( saippuakivikauppias) 
lower( string) VARCHAR 将 字符 串 转 换 为 小 写 SELECT Lower(UPPER); 
lpad(string, size, VARCHAR 在 字符 串 左 边 填 充 size 个 SELECT lpad(4, 4,' ') 
padstring) padstring。 如 果 size 小 于 

字符 串 的 实际 长 度 ， 则 截断 

该 字符 串 
ltrim( string) VARCHAR 去 除 头 部 空格 SELECT ltrim( lpad(4, 4, ' ') ) 
repLace(string， VARCHAR 将 string 中 的 search 字 符 SELECT repLace(555.555.5555，.，-) 
search, replace) 串 赫 换 为 replace 字符 串 
reverse( string) VARCHAR 反 转 字符 串 SELECT 

reverse( saippuakivikauppias) 

rpad(string, size, VARCHAR 在 字符 串 右 边 填 充 size 个 SELECT rpad(4, 4, #) 
padstring) padstring。 如 果 size 小 于 

字符 串 的 实际 长 度 ， 则 截断 

该 字符 串 
rtrim(string) VARCHAR 去 除 尾 部 空格 SELECT rtrim( rpad(4, 4, ' ') ) 
split(string, ARRAY(VARCHAR) ”对 string 以 delimiter 进行 SELECT split(2017,2018,2019，,) 
delimiter) 分 割 ， 返 回 一 个 数组 
strpos(string, BIGINT 返回 字符 串 中 第 一 次 出 现 SELECT strpos(prestosgql.io, .i0); 
substring) substring 的 位 置 。 位 置 从 1 

开始 ， 如 果 没 有 找到 子 串 ， 

则 返回 9 
substr(string, VARCHAR 从 start 开始 去 length 长 度 SELECT substr(prestosgql.io, 1, 9) 
start, length) 0 索引 位 置 从 1 

。 负 数 索 引 是 从 后 往 前 

es 
trim( string) VARCHAR 去 除 头 部 和 尾部 空格 。 与 同 SELECT trim(' A ') 

时 使 用 rtrim 和 ltrinm 效 果 

一 样 
upper( string) VARCHAR 将 字符 串 转换 为 大 写 SELECT upper( Lower) 
word_stem(word, VARCHAR 返回 指定 语言 下 单词 的 词 千 ”SELECT word_stem(presto, it) 
lang) 
9.11 字符 串 和 了 映射 
Presto 能 够 处 理 映 射 类 型 的 数据 ， 它 有 两 个 有 趣 的 可 以 返回 映射 类 型 的 字符 串 函数 : 


split to map(string, entryDelimiter, keyValueDelimiter) > map<varchar, varchar> 


该 函数 通过 使 用 entryDelimiter 将 字符 串 参 数 分 
然后 使 用 keyvaLueDeLimiter 将 这 


文 些 字符 


， 将 字符 串 拆 成 包含 键 值 对 的 字符 串 ， 
其 结果 是 一 个 映射 。 
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看 是 该 函数 的 一 个 实例 一 一 解析 URL 参数 : 


要 











SELECT split to map('userid=1234&reftype=email&device=mobile', '&', '='); 
_col0 


{device=mobile, userid=1234, reftype=email} 
(1 row) 


当 同 一 个 键 出 现 多 次 时 ，split_to_map 函数 会 返回 错误 。 








类 似 的 函数 split_to_multimap 可 以 在 一 个 键 重复 出 现时 使 用 。 假 定 前 面 的 例子 中 有 一 个 
重复 的 device 项 : 














SELECT 
split to _multimap( 
'userid=1234&reftype=email&device=mobile&device=desktop'， 


{device=[mobile, desktop], userid=[1234], reftype=[email]} 
(1 row) 


9.12 Unicode 


如 表 9-8 所 示 ，Presto 提供 了 一 组 Unicode 函数 。 这 些 函 数 可 以 在 UTF-8 有 效 编码 的 Unicode 
码 点 上 工作 。 这 些 函 数 区 别 对待 每 个 码 点 ， 即 使 多 个 码 点 表示 单个 字符 时 也 是 如 此 。 


表 9-8: 与 Unicode 编 码 相关 的 函数 











chr(n) VARCHAR 返回 Unicode 码 点 代表 的 单个 字符 
codepoint(string) INTEGER 回 string 的 Unicode 码 点 








返 
normalize( string) VARCHAR 用 NFC 归 一 化 形式 转换 字符 串 
用 指定 的 归 一 化 形式 转换 字符 串 





normalize( string, form) VARCHAR 





form 参数 必须 是 表 9-9 中 的 关键 词 之 一 。 


表 9-9: 归 一 化 形式 
形 式 描 述 





NFD 正则 分 解 
NFC 正则 分 解 ， 然 后 正则 合成 
NFKD 兼容 分 解 
NFKC 兼容 分 解 ， 然 后 正则 合成 


Unicode 标准 对 这 些 形 式 进行 了 详细 的 描述 。 





这 个 SQL 标准 函数 有 特殊 的 语法 ， 需 要 将 form 作为 关键 字 而 不 是 字符 串 来 
指定 。 








to_utf8(string) > varbinary 
该 函数 将 字符 串 编 码 成 UTF-8 的 varbinary 表示 方式 。 


from_utf8(binary) > varchar 
该 函数 从 二 进 制 中 解码 一 个 UTF-8 编码 的 字符 串 。 任 何 无 效 的 UTF-8 序列 都 会 被 替换 
为 Unicode 替换 字符 U+FFFD。 





from_utf8(binary, replace) > varchar 
该 函数 从 二 进 制 中 解码 UTF-8 编码 的 字符 串 。 任 何 无 效 的 UTF-8 序列 都 会 被 replace 
的 内 容 禁 换 掉 。 


让 我 们 使 用 chr 函数 将 Unicode 码 点 作为 字符 串 返 回 : 





SELECT chr(241) ; 
_col0 


在 这 个 例子 中 ， 我 们 使 用 函数 codepoint 来 返回 字符 串 的 Unicode 码 点 : 








SELECT codepoint(uy&'\Q0OF1'); 
_col0 





现在 我 们 演示 一 下 西班牙 语 的 efie 字符 在 Unicode 中 用 多 种 方式 表示 的 例子 。 它 既 可 以 用 
一 个 码 点 来 表示 ， 也 可 以 由 多 个 码 点 组 成 。 当 直接 比较 时 ， 它 们 并 不 被 视 为 相等 的 。 这 
时 ， 可 以 使 用 归 一 化 函数 将 它们 归 一 化 为 共同 的 形式 ， 以 便 进 行 比较 并 等 效 处 理 。 

SELECT u&'\00F1', 

u&"' \006E\0303', 


U&'\OOF1' = u&'\006E\0303', 
normalize(u&'\Q0F1') = normalize(u&'\006E\0303'); 


eolo | seol1 | .col2. | -col3 


在 某 些 情况 下 ， 多 个 码 点 可 以 组 成 一 个 码 点 。 例 如 ， 罗 马 数 字 IX 可 以 用 工 和 X 两 个 码 点 
来 写 ， 也 可 以 用 单个 码 点 来 写 。 要 比较 二 者 的 相等 性 ， 需 要 使 用 归 一 化 函数 : 
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SELECT uy&'\2168', 'IX', u&'\2168' = 'IX', normalize(u&'\2168', NFKC) = 'IX'; 
_col0 | _col1 | _col2 | _col3 


9.13 正则 表达 式 


Presto 通过 提供 SQL LIKE 运算 符 和 正则 表达 式 (regex) 国 数 来 支持 模式 匹配 。LIKE 返回 
一 个 布尔 值 ， 语 法 为 搜索 字段 LIKE 模式 。 























LIKE 非常 适用 于 只 需要 基本 模式 匹配 的 场合 ， 但 在 其 他 场合 可 能 表达 力 不 足 。LIKE 模式 支 
持 两 个 符号 : _ 表示 匹配 任何 一 个 字符 ，% 表示 匹配 0 个 或 多 个 字符 。 


假设 你 想 找到 从 达拉斯 地 区 出 发 的 航班 ， 可 以 写 出 下 面 的 查询 : 


SELECT origincityname, count(*) 

FROM flights_orc 

WHERE origincityname LIKE '%Dallas%’' 
GROUP BY origincityname; 


origincityname | jcoll 
re Ee 
Dallas/Fort Worth, TX | 7601863 
Dallas, TX | 1297795 
(2 rows) 


任何 更 复杂 的 模式 匹配 都 需要 使 用 正则 表述 式 函数 ， 这 些 函 数 使 用 Java 模式 语法 提供 的 强 
大 模式 匹配 能 力 。 表 9-10 中 列 出 的 这 些 函 数 适用 于 更 复杂 的 匹配 ， 可 以 用 来 赫 换 和 提取 匹 
配 的 字符 串 ， 也 能 够 根据 匹配 的 位 置 分 割 字符 串 。 表 9-10 列 出 了 这 些 正则 表达 式 函数 。 
表 9-10: 正则 表达 式 函 数 































































































regexp_extract_all(string, pattern， 返回 在 string 中 用 pattern 匹配 到 的 子 字符 串 数组 。 该 函数 的 一 个 

[group]) > array(varchar) 变 体 为 接收 代表 捕获 组 标号 的 参数 

regexp_extract( string, pattern 返回 在 string 中 用 pattern 匹配 到 的 子 字符 串 。 该 函数 的 一 个 变 体 

[group]) » varchar 为 接收 代表 捕获 组 标号 的 参数 

regexp_like(string, pattern) > 返回 一 个 布尔 值 ， 表 示 string 中 是 否 包含 所 指定 的 pattern。 和 LIKE 

boolean 不 一 样 的 地 方 是 ，LIKE erst string 使 用 pattern 进行 匹配 

regexp_replace(string, pattern, 返回 一 个 字符 串 ， 其 中 与 pattern 匹配 的 子 字符 串 被 替换 为 

[replacement]) > varchar replacement。 这 个 函数 的 一 个 变 体 是 省 略 replacement， 这 种 情况 
会 删除 匹配 到 的 字符 串 。 在 replacement 字符 串 中 可 以 使 用 捕获 组 

regexp_replace( string, pattern， 这 个 函数 和 regexp_replace(string, pattern，[replacement]) 类 

function) > varchar 似 ， 但 它 接收 的 是 lambda 表达 式 

regexp_split(string, pattern) > 返回 使 用 pattern 将 string 分 割 后 得 到 的 一 个 数组 。pattern 类 似 

array(varchar) 于 delimiter， 整 个 函数 与 split(string,，delimiter) 类 似 ， 但 用 更 
具有 表达 力 的 正则 表达 式 作 为 分 隔 符 模 式 








表 9-11 展示 了 常用 的 模式 示例 。 有 关 正 则 表达 式 的 Java 文档 中 详细 地 记录 了 所 有 受 支 持 





























的 模式 。 
表 9-11: 正则 表达 式 的 例子 
= 示例 
任意 字符 A 
a 单个 字符 a regexp_like(abc, a) > true 
[a-zA-Z] 字符 范围 regexp_like(abc, [a-zA-2]), regexp_like(123, [a-zA-2]) 
1 数字 1 regexp_like(123, 1) 
\d 任意 数字 regexp_like(123, \d) 
和 匹配 行 让 regexp_Like(abc，^ab^)，regexp_Like(abc，^bc^) 
$ 匹配 行 尾 regexp_like(abc, bcs), regexp_like(abc, abs) 
2 匹配 0 次 或 1 次 regexp_like(abc, d?) 
是 匹配 1 次 或 多 次 regexp_like(abc, d+) 
. 匹配 0 次 或 多 次 











在 这 个 例子 中 ， 我 们 想 从 字符 串 中 提取 字符 b。 这 会 返回 
次 成 功 的 匹配 : 














一 个 数组 ， 其 中 每 个 元 素 都 是 一 


SELECT regexp_extract_aLL('abbbbcccb ' ， 
_col0 


[b, b, b, b, b] 


'b'); 














(1 row) 
让 我 们 再 次 提取 字符 b， 而 这 次 我 们 希望 提取 到 b 的 序列 。 结 果 集 也 是 一 个 数组 ， 但 只 





两 个 元 素 ， 因 为 其 中 一 个 元 素 包 含 了 b 的 连续 序列 : 


SELECT regexp_extract_aLL('abbbbcccb ' ， 
_col0 

[bbbb, b] 
(1 row) 


‘b+'); 

















而 这 个 例子 中 ， 我 们 在 replacement 中 使 用 








和 获 组 。 我 们 在 寻找 bc 的 序列 ， 然 后 交换 














SELECT regexp_replace('abc', '(b)(c)', 
_col0 


'$2$1'); 
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9.14 解 藤 套 复 杂 数 据 类 型 
UNNEST 操作 ， 可 以 将 8.9.1 节 中 讨论 的 复杂 集合 数据 类 型 展开 成 关系 。 对 于 大 数据 和 


结构 数据 类 型 ， 这 是 一 个 非常 强大 的 功能 。 通 过 将 数据 展开 到 关系 中 ， 你 可 以 更 容易 
Wo 


例如 ， 你 存储 了 一 些 访问 控制 策略 ， 并 希望 查询 这 些 策略 。 首 先 ， 我 们 有 一 个 用 户 ， 他 可 
以 与 一 个 或 多 个 角色 关联 ， 而 一 个 角色 可 以 与 一 个 或 多 个 权限 集 关联 。 也 许 这 些 逻 辑 是 由 
schema 定义 的 ， 像 下 面 这 样 : 





SELECT * FROM permissions; 
user | roles 


matt | [[WebService ReadWrite, Storage_ReadWrite], 
[Billing_Read]] 

martin | [[WebService ReadWrite, Storage_ReadWrite], 
[Billing_ReadWrite, Audit Read]] 

(2 rows) 


我 们 可 以 通过 使 用 UNNEST 来 展开 每 个 角色 ， 然 后 与 用 户 关 联 : 





SELECT user, t.roles 
FROM permissions, 
UNNEST(permissions.roles) AS t(roles); 

user | roles 
a a 
martin | [WebService ReadWrite, Storage ReadWrite] 
martin | [Billing ReadWrite, Audit Read] 


matt | [WebService ReadWrite, Storage ReadWrite] 
matt | [Billing_Read] 
(4 rows) 


Tr 





假设 我 们 想 过 滤 数 据 ， 找 出 有 Audit_Read 权限 的 用 户 ， 则 可 以 进一步 将 结构 展开 : 





SELECT User, permission 

FROM permissions, 
UNNEST(permissions.roles) AS ti(roles), 
UNNEST(t1.roles) AS t2(permission); 


user | permission 
a ee 
martin | WebService_ ReadWrite 
martin | Storage_ReadWrite 
martin | Billing ReadWrite 


| 
| 
| 
martin | Audit Read 
| 
| 
| 


matt WebService ReadWrite 
matt Storage_ReadWrite 
matt Billing_Read 

(7 rows) 


最 后 再 加 上 我 们 的 过 滤 条 件 : 





SELECT User, permission 
FROM permissions, 
UNNEST(permissions.roles) AS ti(roles), 
UNNEST(t1.roles) AS t2(permission) 
WHERE permission = 'Audit Read'; 

user | permission 
EN Co 
martin | Audit_ Read 
(1 row) 


9.15 JSON 函 类 


在 现代 应 用 程序 和 系统 中 ，JSON 格式 的 数据 无 处 不 在 ， 应 用 范围 极 广 。JavaScript Object 
Notation (JSON) 是 一 种 可 读 性 佳 且 很 灵活 的 数据 格式 ， 常 用 于 Web 应 用 程序 ， 作 为 浏 
览 器 和 服务 器 之 间 的 数据 传输 格式 。 很 多 需要 分 析 的 数据 来 自 于 Web 流量 ， 因 此 经 常 使 用 
JSON 格式 输出 和 保存 。 专 用 的 文档 存储 以 及 许多 关系 数据 库 系 统 现在 支持 JSON 数据 。 


Presto 是 一 个 SQL-on-Anything 的 引擎 ， 它 能 以 JSON 格式 从 数据 源 中 检索 数据 。 例 如 ， 
Kafka、Elasticsearch 和 MongoDB 连接 器 都 返回 JSON 格式 的 数据 ， 或 者 可 以 暴露 源 JSON 
数据 。Presto 也 可 以 使 用 HDFS 或 云 对 象 存储 中 的 JSON 文件 。Presto 并 不 强制 连接 器 将 
JSON 格式 的 数据 转换 为 带 有 列 和 行 的 严格 的 关系 数据 结构 ， 相 反 ， 可 以 用 表 9-12 中 的 函 
数 对 JSON 数据 进行 操作 ， 这 使 得 用 户 可 以 对 原始 数据 执行 他 们 想 要 的 操作 。 


表 9-12: JSON 相 关 函 数 


函 数 描 述 示 例 
is_json_scalar(json) 如 果 传 入 值 是 JSON 标量 ， SELECT is_json_scalar(abc) 
则 返回 true 






































json_array_contains(json，value) 如 果 传 入 值 包 含 于 JSON SELECT json_array_contains([1, 2, 3]，1) 
数组 中 ， 则 返回 true 

json_array_length( json) 返回 传人 的 JSON 数组 的 ”SELECT json_array_length([1, 2, 3]) 
长 度 (BIGINT 类 型 ) 


9.16 “日 期 和 时 间 函 数 及 运算 符 


在 8.9.2 节 中 ， 我 们 讨论 了 Presto 中 的 时 态 数据 类 型 。 你 已 经 了 解 了 这 些 类 型 ， 知 道 它们 
输入 和 输出 的 格式 和 表示 方式 ， 以 及 时 区 、 时 间 间 隔 和 其 他 一 些 细微 差别 。 虽 然 这 些 内 容 
涵盖 了 存储 和 时 态 类 型 的 表示 ， 但 使 用 函数 和 运算 符 对 数据 进行 操作 也 很 常见 且 很 重要 。 


Presto 支持 时 态 类 型 的 + 和 - 运算 符 。 这 些 运算 符 可 以 用 来 在 日 期 时 间 类 型 上 加 减 一 个 时 
间 间 隔 ， 或 者 在 时 间 间 隔 类 型 上 加 减 另 一 个 时 间 间 隔 。 但 是 ， 将 两 个 时 间 惟 加 在 一 起 没有 
任何 意义 。 此 外 ，YEAR TO MONTH 和 DAY TO SECOND 的 时 间 间 隔 类 型 不 能 合并 。 
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你 可 以 在 时 间 12:00 的 基础 上 加 1 小 时 ， 得 到 13:00: 


SELECT TIME "12:00' + INTERVAL '1' HOUR; 
_col0 
13:00:00.000 
(1 row) 





接 下 来 ， 你 可 以 把 1 年 和 15 个 月 加 在 一 起 ， 结 果 为 2 年 零 3 个 月 : 


SELECT INTERVAL '1' YEAR + INTERVAL '15' MONTH; 
_col0 


另 一 个 好 用 的 运算 符 AT TIME ZONE 允许 你 计算 不 同时 区 的 时 间 : 


SELECT TIME "02:56:15 UTC' AT TIME ZONE '-08:00° 
_col0 


18:56:15.000 -08:00 
(1 row) 


只 要 使 用 正确 的 格式 ， 就 可 以 将 字符 串 解 析 成 时 间 惟 类 型 的 值 ; 


SELECT TIMESTAMP '1983-10-19 07:30:05.123'; 
_col0 


1983-10-19 07:30:05.123 


在 许多 情况 下 ， 使 用 ISO 8601 格式 和 表 9-13 中 的 函数 之 一 来 解析 字符 串 中 的 日 期 或 时 间 
截 更 方便 。 


表 9-13: ISO 8601 解 析 函 数 














from iso8601 timestamp( string) TIME WITH TIME ZONE 解析 一 个 ISO 8601 格式 的 字符 串 并 返回 
一 个 TIME WITH TIME ZONE 类 型 的 结果 
from iso8601 date( string) DATE 解析 一 个 ISO 8601 格式 的 字符 串 返 回 一 


个 DATE 类 型 的 结果 








ISO 8601 是 一 个 关于 时 间 字 符 串 格式 的 很 好 的 标准 。 在 使 用 前 面 列 出 的 函数 时 ， 传 入 的 字 
符 串 必须 使 用 以 下 格式 之 一 : 





YYY 

。 YYYY-MM 

。 YYYY-MM-DD 
。 HH 





。 HH:MM 
。 HH:MM:SS 
。 HH:MM:SS.SSS 


此 外 ， 还 可 以 使 用 T 分 隔 符 将 日 期 和 时 间 结 合 起 来 ， 下 面 是 一 些 例子 。 
我 们 先 将 ISO 8601 日 期 和 时 间 解 析 成 SQL 时 间 发 ; 


SELECT from iso8601 timestamp('2019-03-17T21:05:1927'); 
_col0 


2019-03-17 21:05:19.000 UTC 
(1 row) 


接 下 来 指定 一 个 默认 的 UTC 以 外 的 时 区 : 


SELECT from iso8601 timestamp('2019-03-17T21:05:19-05:00'); 
_CoL0 


2019-03-17 21:05:19.000 -05:00 
(1 row) 


该 标准 还 允许 你 指定 一 年 中 的 某 周 。 在 下 面 这 个 例子 中 ，2019 年 的 第 10 周 相当 于 2019 年 
3 月 4 日 : 


SELECT from iso8601 timestamp('2019-W10'); 
_col0 

2019-03-04 00:00:00.000 UTC 

(1 row) 








在 下 面 这 个 例子 中 ， 我 们 不 指定 时 间 ， 而 是 将 ISO 8601 字符 串 解析 为 SQL DATE 类 型 


SELECT from iso8601 date('2019-03-17'); 
_col0 


2019-03-17 
(1 row) 


Presto 提供 了 一 组 丰富 的 与 日 期 和 时 间 相关 的 函数 。 这 些 函 数 对 于 涉及 时 间 的 应 用 程序 至 


关 重 要 ， 在 这 些 应 用 程序 中 ， 你 可 能 经 常 要 转换 、 比 较 或 提取 时 间 元 素 。 表 9-14 展示 了 一 
些 可 用 的 国 数 。 请 查看 1.4.2 节 了 解 更 多 有 用 的 函数 和 其 他 技巧 。 








表 9-14: 一 些 时 态 函 数 和 值 



































current_ timezone() VARCHAR 返回 当前 时 区 
current_date DATE 返回 当前 日 期 
current_time TIME WITH TIME ZONE 返回 当前 日 期 和 时 区 
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current_timestamp or now() TIMESTAMP WITH TIME ZONE 返回 当前 时 间 、 日 期 和 时 区 
localtime TIME 基于 本 地 时 区 返回 当前 时 间 
localtimestamp TIMESTAMP 基于 本 地 时 区 返回 当前 的 日 期 和 时 间 
from_unixtime(unixtime) TIMESTAMP 将 一 个 UNIX 时 间 转 换 为 日 期 和 时 间 
to_unixtime(timestamp) DOUBLE 将 日 期 和 时 间 转 换 为 UNIX 时 间 值 
to_milliseconds(interval) BIGINT 将 时 间 间 隔 转 换 为 毫秒 


9.17 直方 图 


Presto 提供 了 width_bucket 函数 用 来 创建 等 宽 直 方 图 。 




















width_bucket(x, bound1, bound2, n) -> bigint 


表达 式 x 表示 用 来 创建 直方 
作为 值 的 界限 。 该 函数 返回 











图 的 数值 。 等 宽 直方 图 包含 "个 桶 ， 并 使 用 bound1 和 bound2 
表达 式 x 的 每 个 值 对 应 的 桶 编号 。 




















让 我 们 以 航班 数据 集 为 例 ， 计 算出 从 2010 年 到 2020 年 10 年 内 的 直方 图 : 


SELECT count(*) count, year, width bucket(year, 2010, 2020, 4) bucket 


FROM flights_orc 


WHERE year >= 2010 
GROUP BY year; 


7129270 
7140596 
7141922 
7455458 
7009726 
6450285 
6450117 
6085281 
6096762 
6369482 
(10 rows 


| 
下 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 


) 


上 mmP 记 PP 六 王 








注意 ， 除 了 预期 的 桶 1、 桶 2、 桶 3 和 桶 4 外 ， 我 们 还 有 桶 0 和 桶 5。 这些 桶 用 来 放 最 小 值 
和 最 大 值 范 围 以 外 的 值 ， 在 本 例 中 ， 也 就 是 2010 年 到 2019 年 以 外 的 年 份 。 












































注 1: 本 例 中 没有 出 现 2020 年 的 数据 ， 

















此 没有 显示 桶 5。 一 一 译 者 六 
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we 


条 9 日 


9. 





不 同 ， 聚 合 函 数 对 一 


18 ”聚合 函数 








用 聚合 国 数 ， 如 表 9-15 所 示 。 


聚合 国 数 可 以 在 参数 后 加 入 一 个 可 选 的 ORDER BY 子 句 。 在 语义 上 ， 这 意味 着 在 执行 聚合 之 
了 排序 。 对 于 大 多 数 聚合 函数 来 说 ， 顺 序 并 不 重要 。 


前 对 输入 集 进 和 
表 9-15: 聚合 函数 


在 SQL 中 ， 聚 合 函 数 操作 并 计算 出 一 个 值 或 一 组 值 。 与 标量 函数 对 每 个 输入 值 产 生 单个 值 
组 输入 值 产生 单个 值 。Presto 支持 大 多 数 其 他 数据 库 系 统 中 常见 的 通 









































count( *) BIGINT 返回 传 入 数值 的 个 数 

count(x) BIGINT 返回 传 入 非 NULL 值 的 个 数 

sum(X) 同 输入 返回 传 入 值 的 总 和 

min(x) 同 输 入 返回 传 入 值 的 最 小 值 

max(x) 同 输 入 返回 传 入 值 的 最 大 值 

avg(X) DOUBLE 返回 传人 值 的 平均 值 

9.18.1 映射 聚合 函数 

Presto 支持 几 个 有 用 的 映射 相关 函数 ， 见 表 9-16。 对 于 其 中 一 些 函数 ， 根 据 所 需 的 结果 ， 

需要 使 用 可 选 的 ORDER BY 子 句 。 我 们 用 音 尾 花 数 据 集 (参见 1.4.7 节 ) 的 例子 来 演示 这 种 

使 用 方法 。 

表 9-16: 映射 聚合 函数 

histogram(X) map(K, bigint) 这 个 函数 从 传 入 值 x 中 创建 一 个 直方 图 ， 返 回 一 个 
映射 ， 其 中 键 是 x, 值 是 x 出现 的 次 数 

map_agg( key, value) map(K, V) 从 一 组 键 值 中 创建 映射 ， 重 复 键 对 应 的 值 是 随机 选 
取 的 ， 可 以 使 用 multimap_agg 来 生成 单 键 对 多 值 的 
映射 

map_union(x(K, V)) map(K, V) 这 个 函数 将 多 个 映射 合并 到 一 个 映射 中 。 需 要 注意 
的 是 ， 如 果 在 多 个 映射 中 找到 相同 的 键 ， 则 不 能 保 
证 哪个 值 会 被 选择 。 该 函数 不 会 合并 这 两 个 值 


multimap_agg(key, value) 


让 我 们 创建 一 个 petal_length_cn 的 直方 


数 为 直方 图 创建 更 宽 的 桶 : 











注 





2: 不 同 之 处 有 

















map(K，array(V)) 此 函数 类 似 于 map_agg， 它 也 是 从 键 值 中 创建 的 


映射 ” 





加 


。 因 为 数据 是 精确 的 ， 所 以 可 以 使 用 floor 函 











出 现 的 多 个 值 。 一 一 译 者 注 





E 于 该 函数 对 于 同一 键 会 保留 
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SELECT histogram(fLoor(petaL_Length_cm) ) 
FROM memory.default.iris; 
_col0 


{1.0=50, 4.0=43, 5.0=35, 3.0=11, 6.0=11} 
(1 row) 


你 可 能 认识 到 ， 直 方 图 的 输出 与 你 在 做 GROUP BY 和 COUNT 时 看 到 的 结果 类 似 。 我 们 可 以 将 
结果 作为 map_agg 函数 的 输入 ， 用 同样 的 结果 创建 直方 图 : 








SELECT floor(petal_length _ cm) k, count(*) v 
FROM memory.default.iris 
GROUP BY 1 
ORDER BY 2 DESC; 
k 


SELECT map_agg(k, v) FROM ( 
SELECT floor(petal_length_cm) k, 
count(*) v 
FROM iris 
GROUP BY 1 


站 


{4.0=43, 1.0=50, 5.0=35, 3.0=11, 6.0=11} 
(1 row) 


SELECT multimap_agg(species, petal_length_cm) 
FROM memory.default.iris; 

{versicolor=[4.7, 4.5, 4.9..], ， 
virginteas[6.0, S51; $9 30s 

setosa=[1.4, 1.4, 1...] .. 

(1 row) 


map_union 函数 对 组 合 映 射 非常 有 用 。 假 设 有 多 个 映射 ， 本 例 将 使 用 直方 图 函数 来 创建 它们 : 





SELECT histogram(floor(petal_length cm)) x 
FROM memory.default.iris 
GROUP BY species; 


{4.0=6, 5.0=33, 6.0=11} 
{4.0=37, 5.0=2,3.0=11} 
{1.0=50} 

(3 rows) 
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我 们 可 以 用 map_union 来 组 合 它们 。 然 而 ， 广 意 键 4.0 和 键 5.0 在 不 同 的 映射 中 都 存在 。 在 
这 些 情况 下 ，Presto 会 任意 选择 一 组 值 。 它 并 没有 执行 任何 类 型 的 合并 。 虽 然 在 本 例 中 将 
他 们 加 起 来 是 正确 的 ， 但 这 个 处 理 方式 并 不 总 是 管用 的 。 例 如 ， 这 些 值 可 能 是 字符 串 ， 这 
样 就 不 太 清 楚 如 何 合 并 它们 了 。 











SELECT map_union(m) 
FROM ( 
SELECT histogram(floor(petal_length_cm)) m 
FROM memory.default.iris 
GROUP BY species 
); 


{4.0=6, 1.0=50, 5.0=33, 6.0=11, 3.0=11} 
(1 row) 


9.18.2 ”近似 聚合 函数 


当 处 理 大量 的 数据 和 聚合 时 ， 数 据 处 理 可 能 是 资源 密集 型 的 ， 需 要 更 多 的 硬件 来 扩展 
Presto 以 提供 交互 性 。 有 时 ， 扩 容 的 成 本 非常 昂贵 。 



































为 了 帮助 应 对 这 种 情况 ，Presto 提供 了 一 组 聚合 国 数 ， 返 回 近似 值 而 不 是 精确 结果 。 这 些 
近似 聚合 函数 使 用 更 少 的 内 存 和 计算 能 力 ， 但 代价 是 不 能 提供 准确 的 结果 。 
在 处 理 大 数据 时 ， 很 多 情况 下 这 是 可 以 接受 的 ， 因 为 数据 本 身 往往 不 是 完全 准确 的 。 可 能 
会 缺失 一 天 的 数据 ， 但 考虑 一 年 以 上 的 聚合 时 ， 人 缺失 的 数据 对 于 某 些 类 型 的 分 析 来 说 并 不 
重要 。 






































记 住 ，Presto 不 是 为 OLTP 查询 而 设计 的 ， 它 不 适合 为 公司 的 分 类 账 生成 绝对 准确 的 报表 。 
然而 ， 对 于 OLAP 使 用 场景 ， 只 需 了 解 趋势 而 无 须 完全 准确 的 结果 分 析 ， 使 用 Presto 是 可 


Presto 提供 了 两 个 主要 的 近似 函数 : approx_distinct 和 approx_percentile。 


Presto 使 用 HyperLogLog 算法 来 实现 approx_distinct 函数 。 在 数据 分 析 中 ， 统 计 不 同行 
的 数量 是 一 个 非常 常见 的 查询 。 例 如 ， 你 可 能 想 统计 日 志 的 不 同 用 户 ID 或 卫 地 址 的 数 
量 ， 以 了 解 某 天 、 某 月 或 某 年 有 多 少 用 户 访问 了 你 的 网 站 。 由 于 用 户 可 能 多 次 访问 你 的 网 
站 ， 因 此 ， 简 单 地 统计 日 志 中 的 条 目 数 是 行 不 通 的 。 你 需要 找到 不 同 用 户 数 ， 这 就 要 求 你 
将 每 个 用 户 的 多 次 访问 记录 仅 计 为 一 次 。 为 此 ， 你 需要 在 内 存 中 保存 一 个 结构 ， 这 样 就 可 
以 不 用 重复 计算 了 。 对 于 海量 数据 ， 这 种 方法 就 变 得 不 切实 际 并 且 很 慢 ， 而 HyperLogLog 
提供 了 另 一 种 方法 ， 本 书 不 会 讨论 具体 算法 。 
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为 了 实现 近似 的 不 同 值 "统计 , Presto 提供 了 HyperLogLog 数据 类 型 (用户 也 可 以 使 用 它 )， 
这 意味 着 它 可 以 存 和 人 表 中 。 这 非常 有 价值 ， 因 为 你 可 以 存储 计算 结果 ， 以 便 以 后 再 合并 。 
假设 你 的 数据 是 按 天 划分 的 ， 每 天 你 可 以 为 当天 的 用 户 创 建 一 个 HyperLogLog 结构 并 存 
储 。 然 后 ， 当 你 想 计算 近似 基数 时 ， 可 以 将 HyperLogLosg 合并 到 一 起 得 出 结果 。 


























9.19 窗 函 数 
Presto 支持 使 用 SQL 中 的 标准 窗 函 数 (window function)， 它 允许 你 定义 一 组 记录 作为 函 
数 的 输入 。 
例如 ， 我 们 来 看 看 昔 尾 花 的 划 片 长 度 〈 参 见 1.4.7 市 )。 
如 果 没 有 窗 函 数 ， 可 以 按 如 下 方式 计算 所 有 品种 的 瓯 片 平均 长 度 : 
SELECT avg(sepal_length_cm) 


FROM memory.default.iris; 
5.8433332 


另外 ， 你 也 可 以 计算 出 特定 品种 的 平均 长 度 : 


SELECT avg(sepaL_Length_cm) 
FROM memory.default.iris 
WHERE species = 'setosa'; 
5.006 

















但 是 ， 如 果 你 想 列 出 所 有 测量 值 ， 并 将 每 个 测量 值 与 整体 平均 数 比 较 呢 ? 0VER() 窗 函 数 可 
以 让 你 做 到 这 一 点 : 
SELECT species, sepal_length_cnm, 


avg(sepal_length_cm) OVER() AS avgsepal 
FROM memory.default.iris; 


species | sepaL_Length_cm | avgsepal 
00------- 十 --------------- 二 ----------- 
setosa | 5.1 | 5.8433332 
setosa | 4.9 | 5.8433332 
versicolor | 7.0 | 5.8433332 
versicolor | 6.4 | 5.8433332 
versicolor | 6.9 | 5.8433332 








注 3: 不 同 值 的 数量 常 叫 作 基 数 。 一 一 译 者 注 
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SELECT species，sepaL_Length_cm， 
avg(sepaL_Length_cm) OVER(PARTITION BY species) AS avgsepal 
FROM memory.default.iris; 














species | sepaL_Length_cm | avgsepal 
A A 
setosa | 5 江 :| 5.006 
setosa | 4.9 | 5.006 
setosa | 4.7 | 5.006 
virginica | 6.3 | 6.588 
virginica | 5.8 | 6.588 
virginica | 7.1 | 6.588 
平均 长 度 因 品种 而 异 。 借 助 DISTINCT， 通 过 省 略 单个 长 度 ， 你 可 以 得 到 每 个 品种 的 平均 长 














度 列表 : 


SELECT DISTINCT species, 
avg(sepal_length_cm) OVER(PARTITION BY species) AS avgsepal 
FROM memory.default.iris; 


species | avgsepal 
i Eo 
setosa | 5.006 
virginica | 6.588 
versicolor | 5.936 
(3 rows) 


Presto 中 的 窗 函 数 支持 所 有 的 聚合 函数 以 及 许多 窗 特有 的 函数 : 


SELECT DISTINCT species, 
min(sepal_length_cm) OVER(PARTITION BY species) AS minsepal, 
avg(sepal_length_cm) OVER(PARTITION BY species) AS avgsepal, 
max(sepal_length_cm) OVER(PARTITION BY species) AS maxsepal 
FROM memory.default.iris; 


species | minsepal | avgsepal | maxsepal 
------------ +----------+----------+---------- 
virginica | 4.9 | 6.588 | 了 .9 
setosa | 4.3 | 5.006 | S58 
versicolor | 4.9 | 5.936 | 7.0 
(3 rows) 


更 多 细节 可 以 查看 Presto 文档 (参见 1.4.2 节 )。 





9.20 ”lambda 表 达 式 


在 SQL 语句 中 使 用 lambda 表达 式 是 处 理 数组 元 素 的 一 个 高 级 概念 。 如 果 你 有 编程 背景 ， 
可 能 对 它们 的 语法 很 熟悉 ， 或 者 知道 这 些 表 达 式 的 其 他 名 称 ， 如 lambda 函数 、 匿 名 函数 
或 闭 包 。 




















| 态 





许多 数组 函数 ， 如 zip_with， 支 持 使 用 lambda 表达 式 。 该 表达 式 定 义 了 一 个 从 输入 值 到 





高 级 SQL 特 性 | 169 


输出 值 的 转换 ， 用 -> 隔 开 : 


x->x+1 

(x，y) ->x+y 

x -> IF(x > 0, x, -x) 

XxX -> Xx+1 (x, y) ->x+y x -> IF(x > 0, x, -x) 














其 他 常用 到 lambda 表达 式 的 函数 有 transform、fiLter、reduce、array_sort、none_match、 
any_match 和 aLL_match 等 。 


让 我 们 看 下 面 这 个 例子 : 
SELECT zip_with(ARRAY[1, 2, 6, 2, 5], 
ARRAY[3, 4, 2, 5, 7], 
(xX, y) -> x + y); 
[4, 6, 8, 7, 12] 
如 你 所 见 ，lambda 表达 式 很 简单 但 功能 强大 。 它 将 两 个 数组 中 相同 位 置 的 元 素 相 加 ， 用 
结果 创建 一 个 新 的 数组 。 简 单 来 说 ， 对 两 个 数组 同时 进行 迭代 ， 每 次 迭代 时 都 会 调用 该 函 
数 ， 而 无 须 编写 代码 来 循环 遍历 数组 数据 结构 。 


9.21 地 理 空间 函 炎 


Presto 所 支持 的 SQL 超出 了 标准 SQL 的 范围 ， 它 包括 了 地 理 空 间 分 析 领 域 的 一 系列 重要 
国 数 。 与 其 他 支持 的 SQL 特性 一 样 ，Presto 在 这 方面 与 其 他 工具 的 相关 标准 和 使 用 方法 尽 
量 保 持 一 致 。 



































在 地 理 空 间 函 数 方面 ，Presto 使 用 ST_ 前 级 支持 SQL/MM 规范 和 开放 地 理 空 间 信 息 联 盟 
(OGC) 的 OpenGIS 规范 。 























因为 对 地 理 空间 的 SQL 支持 内 容 很 多 ， 所 以 本 节 只 对 此 进行 粗略 的 介绍 。 
Presto 支持 众多 的 构造 器 从 数据 源 处 来 创建 地 理 空 间 对 象 : 





。 ST_ GeometryFromText(varchar) -> Geometry 
。 ST_ GeomFromBinary(varbinary) -> Geometry 
。 ST_LineFromText(varchar) -> LineString 

。 ST_LineSstring(array(Point)) -> LineString 
。 ST_Point(double, double) -> Point 

。 ST_Polygon(varchar) -> Polygon 


然后 ， 可 以 在 诸多 函数 中 使 用 这 些 对 象 来 进行 位 置 比较 等 处 理 : 





。 ST_Contains(Geometry, Geometry) -> boolean 
。 ST_Touches(Geometry, Geometry) -> boolean 
。 ST_Within(Geometry, Geometry) -> boolean 

。 ST_Length(Geometry) -> double 

。 ST_Distance(Geometry, Geometry) -> double 


。 ST_Area(SphericalGeography) -> double 




















Presto 文档 (参见 1.4.2 节 ) 详细 介绍 了 Presto 中 对 地 理 空间 的 支持 。 如 果 你 在 使 用 Presto 








时 需要 处 理 地 理 空间 数据 ， 我 们 强烈 建议 你 看 一 下 该 文档 。 














9.22 Prepared Statement 





Prepared Statement 是 一 种 非常 有 用 的 方法 ， 它 可 以 使 用 不 同 的 输入 参数 值 运行 相同 的 SQL 


语句 。 它 允许 重复 使 用 SQL 语句 ， 这 简化 了 用 户 反复 调用 的 麻烦 ， 
于 维护 。Prepared Statement 是 保存 在 Presto 用 户 会 话 中 的 查询 。 














也 让 代码 更 干净 、 更 易 











Prepared Statement 的 使 用 和 创建 分 为 两 个 步骤 。pPREPARE 语句 用 于 创建 语句 ， 从 而 使 其 在 


会 话 中 可 重复 使 用 : 


PREPARE example 
FROM SELECT count(*) FROM hive.ontime.flights_orc; 


EXECUTE 命令 可 用 于 运行 一 次 或 多 次 查询 : 


EXECUTE example; 
_col0 

166628027 

(1 row) 


Prepared Statement 可 以 支持 在 执行 时 传人 参数 值 : 


PREPARE delay_query FROM 

SELECT dayofweek, 
avg(depdelayminutes) AS delay 

FROM flights_orc 

WHERE month = ? 

AND origincityname LIKE ? 

GROUP BY dayofweek 

ORDER BY dayofweek; 





执行 带 参 数 的 查询 时 ， 需 要 在 USING 关键 字 之 后 以 正确 的 顺序 传递 参数 。 





EXECUTE delay_query USING 2, '%Boston%'; 
dayofweek | delay 
Ee a 
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10.613156692553677 
9.97405624214174 
9.548045977011494 
11.822725778003647 
15.875475113122173 
11.184173669467787 
10.788121285791464 


CN 上 WwWDP 哺 


(7 rows) 





PREPARE 语句 在 RDBMS 中 与 其 在 Presto 中 的 区 别 


在 其 他 关系 数据 库 系 统 中 使 用 PREPARE 的 目的 不 仅仅 是 方便 执行 传 入 不 同 参数 值 的 类 
似 查询 。 很 多 系统 在 执行 PREPARE 语句 时 ,实际 上 可 能 会 对 SQL 进行 解析 和 计划 。 然 
后 在 执行 EXECUTE 命令 时 ， 将 这 些 值 传递 给 系统 ， 并 绑 定 到 执行 计划 算 子 中 。 对 于 事 
务 性 系统 来 说 ， 这 往往 是 重要 的 优化 ， 因 为 即使 传 入 不 同 的 值 ， 多 次 执行 查询 时 只 需 
一 次 解析 和 生成 执行 计划 即 可 。 这 就 是 Prepared Statement 最 初 的 目的 。 


另 一 个 常见 的 例子 是 INSERT 查询 ， 在 这 里 你 想 尽 快 插入 大 量 的 新 值 。PREPARE 消除 了 
每 次 插入 时 生成 执行 计划 的 开销 。 


目前 ，Presto 没有 实现 这 种 优化 ， 每 次 EXECUTE 时 都 要 为 查询 和 解析 生成 计划 。 考 虑 到 
Presto 的 主要 使 用 场景 ， 上 述 的 绑 定 优化 便 并 不 是 那么 值得 关注 了 。Prepared Statement 
最 初 是 为 JDBC 驱动 和 ODBC 驱动 而 引入 Presto 中 的 ， 因 为 很 多 工具 可 能 会 依赖 这 个 
功能 。 











DESCRIBE 命令 可 以 用 DESCRIBE INPUT 命令 和 DESCRIBE OUTPUT 命令 来 理解 Prepared Statement。 
这 些 命令 被 JDBC 和 ODBC 驱动 内 部 用 于 获得 元 数据 信息 和 错误 处 理 。 





DESCRIBE INPUT delay_query; 
Position | Type 
| 全 个 
0 | integer 
1 | varchar 
(2 rows) 


DESCRIBE OUTPUT delay_query; 


Column Name | Catalog | Schema | Table | Type | Type Size | Aliased 
------------- +---------+--------+-------------+---------+-----------+-------- 
dayofweek | hive | ontime | flights_ orc | integer | 4 | false 
delay | | | | double | 8 | true 

(2 rows) 





当 你 退出 Presto 会 话 时 ，Prepared Statement 会 被 自动 释放 。 你 可 以 用 DEALLOCATE PREPARE 
语句 手动 释放 Prepared Statement。 





DEALLOCATE PREPARE delay_query; 
DEALLOCATE 
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9.23 小结 


茶 喜 你 学 完了 本 章 ! 这 一 章 比较 深入 地 讲解 了 Presto 中 的 SQL 支持 和 处 理 。 这 是 Presto 的 
一 个 核心 功能 ， 因 此 非常 重要 。 不 过 你 并 设 有 学 到 所 有 的 细节 ， 请 务必 参考 1.4.2 市 中 提 到 
的 官方 文档 ， 以 获得 全 面 最 新 的 信息 ， 包 括 所 有 函数 和 运算 符 的 完整 列表 以 及 更 多 的 细 市 。 


























望 深入 学 习 Presto 的 SQL 支持 能 让 你 真正 在 实际 生产 环境 中 运行 Presto 时 为 用 户 创造 价 
人 在 本 书 的 第 三 部 分 ， 你 将 了 解 到 更 多 关于 安全 、 监 控 等 方面 的 内 容 ， 还 可 以 找到 一 些 
使 用 Presto 的 应 用 实例 ， 以 及 其 他 组 织 和 公司 的 实际 使 用 情况 


有 了 第 8 章 和 本 章 中 关于 Presto 的 SQL 支持 的 知识 ， 你 现在 可 以 回 到 第 4 章 ， 学 习 更 多 关 
于 查询 计划 和 优化 的 知识 ;你 也 可 以 进入 本 书 的 第 三 部 分 ， 了 解 更 多 关于 Presto 在 生产 中 
环境 的 使 用 、 集 成 Presto 的 方法 以 及 其 他 使 用 场景 。 
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第 三 部 分 


Presto 的 实际 应 用 





到 目前 为 止 ， 你 已 简要 了 解 了 Presto， 学 习 了 如 何在 生产 环境 中 安装 Presto， 掌 握 了 如 何 
用 不 同 的 连接 器 连接 数据 源 ， 并 看 到 了 它 的 SQL 支持 是 多 么 强大 。 























在 第 三 部 分 中 ， 你 将 学 习 在 生产 环境 中 使 用 Presto 的 其 他 方面 ， 如 安全 和 监控 ， 你 将 探索 
与 Presto 一 起 工作 的 应 用 程序 ， 从 而 为 用 户 提供 巨大 的 价值 。 

















， 你 会 了 解 到 其 他 组 织 使 用 Presto 的 情况 。 








第 5 章 中 讨论 的 大 规模 部 署 是 实现 在 生产 环境 中 使 用 Presto 的 重要 一 步 。 在 本 章 中 ， 你 将 
了 解 更 多 关于 Presto 本 身 以 及 底层 数据 安全 问题 的 信息 。 





在 典型 的 Presto 集群 部 署 和 使 用 中 ， 可 以 考虑 保障 几 个 方面 的 安全 : 


。 用 户 客户 端 与 Presto 协调 器 之 间 的 数据 传输 ; 

。 Presto 集群 内 协调 器 和 工作 节点 之 间 的 数据 传输 ; 

。 Presto 集群 和 按 catalog 配置 的 每 个 数据 源 之 间 的 数据 传输 ; 
。 访问 每 个 数据 源 内 的 具体 数据 。 














在 图 10-1 中 ， 你 可 以 看 到 如 何 保障 Presto 不 同 网 络 连接 的 安全 性 : 与 客户 端的 连接 ( 比 
如 ，Presto CLI 或 使 用 JDBC 驱动 的 应 用 程序 )、 集 群 内 的 流量 ， 以 及 与 所 有 不 同 数据 源 的 
连接 都 需要 安全 保障 。 
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TUE 











10-1: 需要 安全 保障 的 Presto 网 络 连 接 


下 面 各 节 会 更 详细 地 探讨 这 些 需 求 ， 先 从 Presto 的 用 户 认 证 开始 。 


10.1 认证 


认证 是 向 系统 证 明 身 份 的 过 程 ， 它 对 于 任何 安全 系统 都 必 不 可 少 。 计 算 机 系统 支持 多 种 认 
证 方法 ， 包 括 Kerberos、 轻 量 级 目录 访问 协议 (LDAP) 密码 认证 以 及 证 书 认证 。 是 否 支 
持 特定 的 认证 方法 取决 于 每 个 系统 。 在 Presto 中 ， 客 户 端 通常 通过 以 下 方法 之 一 来 进行 
Presto 的 认证 。 

。 通过 LDAP 输入 密码 ， 参 见 下 述 内 容 。 

。 证 书 ， 参 见 10.5 市 。 

。 Kerberos， 参 见 10.6 节 。 





默认 情况 下 ，Presto 中 没有 配置 认证 。 任 何 可 以 访问 协调 器 的 人 都 可 以 连接 并 执行 查询 或 
其 他 操作 。 在 本 章 中 ， 你 将 学 习 有 关 LDAP 和 证 书 认证 机 制 的 详细 信息 ， 因 为 它们 是 最 党 
用 的 。 


然而 ， 认 证 只 是 其 中 的 一 个 环节 。 一 旦 安全 主体 通过 了 认证 ， 他 们 就 会 分 配 到 一 定 的 权 
限 ， 这 些 权 限 决 定 了 用 户 能 够 做 什么 。 你 能 做 的 事情 称 为 授权 ， 由 SystemAccessControl 
和 ConnectorAccessControl 管辖 。10.2 节 将 详细 介绍 相关 信息 。 下 面 的 假设 一 旦 认证 后 ， 
用 户 就 可 以 执行 任何 操作 。 实 际 上 ， 以 系统 权限 访问 系统 时 ， 默 认 就 可 以 执行 任何 操作 ， 
如 查询 系统 catalog。 
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密码 认证 和 LDAP 认 证 

密码 认证 是 一 种 你 可 能 每 天 都 在 使 用 的 认证 方法 。 通 过 给 系统 提供 用 户 名 和 密码 ， 你 提供 
了 只 有 你 知道 的 信息 来 证 明 身 份 。Presto 通过 密码 验证 模块 来 支持 这 种 基本 的 验证 方式 。 
密码 验证 模块 接收 来 自 客 户 端的 用 户 名 和 密码 赁 证， 对 其 进行 验证 ， 并 创建 一 个 安全 主 
体 。 密 码 验 证 模块 则 在 支持 作为 插件 部 署 的 自 定义 密码 验证 模块 。 


目前 ，Presto 的 密码 认证 使 用 的 是 基于 LDAP 服务 的 LDAP 验证 器 。 









































Presto 支持 密码 文件 认证 ， 这 是 一 种 简单 但 不 太 常用 的 认证 机 制 。 











LDAP 是 一 种 业界 标准 的 应 用 协议 ， 用 于 访问 和 管理 目录 服务 器 中 的 信息 。 目 录 服 务 器 中 
的 数据 模型 是 一 个 存储 身份 信息 的 分 层 数据 结构 。 关 于 什么 是 LDAP 及 其 工作 原理 ， 这 里 
不 再 费 述 ， 你 可 以 在 其 他 书 中 或 网 上 找到 更 多 信息 。 











当 使 用 LDAP 验证 模块 时 ， 用 户 将 用 户 名 和 密码 传 给 Presto 协调 器 ， 这 可 以 通过 CLI、 
JDBC 驱动 或 任何 其 他 支持 传递 用 户 名 和 密码 的 客户 端 来 完成 。 然 后 ， 协 调 器 通过 外 部 
LDAP 服务 验证 这 些 赁 证 ， 并 从 用 户 名 中 创建 安全 主体 。 你 可 以 在 图 10-2 中 看 到 这 个 流 
程 。 要 在 Presto 中 启用 LDAP 认证 ， 需 要 在 Presto 协调 器 的 config.properties 文件 中 添加 : 

















http-server .authentication.type=PASSWORD 





POST /v1/statement 
Authorization: Basic bWFOdCS5mdWxsZXI6cGFzc3dvcmQ= 






LDAP Bind Operation 
authentication: simple 

principal: matt.,... 
credentials: password 











图 10-2: 使 用 外 部 LDAP 服务 对 Presto 进行 LDAP 认证 


通过 设置 认证 类 型 为 PASSWORD， 我 们 告诉 Presto 协调 器 使 用 密码 验证 模块 进行 认证 。 





此 外 ， 你 需要 在 etc 目录 下 另外 添加 一 个 文件 password-authenticator.properties 来 配置 LDAP 
服务 : 





password-authenticator .name=Ldap 
ldap.url=ldaps://ldap-server:636 
ldap.user-bind-pattern=${USER}@example.com 
password-authenticator .name=Ldap 
ldap.url=ldaps:/ldap-server:636 
ldap.user-bind-pattern=${USER}@example.com 


password-authenticator.name 属性 指定 了 使 用 LDAP 插件 进行 密码 验证 ， 随 后 的 几 行 则 配 
置 了 LDAP 服务 器 的 URL 和 定位 用 户 记 录 的 模式 。 上 述 绑 定 模 式 是 与 Active Directory 配 
合 使 用 时 的 示例 用 法 ， 下 面 是 使 用 其 他 LDAP 服务 器 或 配置 定义 用 户 ID (UID) 的 另 一 个 
示例 : 





ldap.user-bind-pattern=uid=${USER},O0U=people,DC=example,DC=com 


在 LDAP 中 ， 添加、 删除 、 修 改 、 搜 索 和 绑 定 等 操作 类 型 与 目录 交互 。 绑 定 是 验证 客户 端 
到 目录 服务 器 的 操作 ， 也 是 Presto 用 于 支持 LDAP 认证 的 操作 。 为 了 绑 定 ， 你 需要 提供 身 
份 标识 和 身份 证 明 ， 如 密码 。LDAP 允许 不 同类 型 的 认证 ， 但 用 户 身份 标识 (也 称 为 可 分 
辨 名 称 ) 和 密码 是 Presto 支持 LDAP 认证 的 主要 方法 。 


Presto 最 近 增 加 了 一 种 辅助 方法 ， 就 是 用 LDAP 服务 用 户 进行 认证 和 授权 ， 可 以 查看 
Presto 文档 中 的 相关 配置 提示 。 





Presto 需要 使 用 安全 的 LDAP， 也 就 是 LDAPS。 因 此 ， 你 需要 确保 LDAP 
服务 器 上 启用 了 TLS， 还 需要 确保 ldap-url 属性 的 URL 使 用 ldaps:// 而 
非 ldap://。 因 为 这 个 通信 和 是 通过 TLS 进行 的 ， 所 以 你 需要 将 LDAP 服务 器 
的 TLS 证 书 导入 Presto 协调 器 使 用 的 truststore 中 。 或 者 如 果 LDAP 服务 器 
使 用 的 是 由 认证 中 心 (certificate authority，CA) 签署 的 证 书 ， 则 你 需要 确保 
CA 链 是 在 truststore 中 的 。 


为 了 安全 地 使 用 LDAP 验证 模块 ， 你 还 需要 配置 对 Presto 协调 器 的 HTTPS 
访问 ， 这 可 以 确保 从 客户 端 发 送 的 密码 不 会 以 明文 的 形式 在 不 安全 的 网 络 上 
传输 。10.3 节 将 讨论 此 设置 。 


























LDAP 配置 好 后 ， 你 可 以 使 用 Presto CLI 进行 测试 : 
presto --user matt --password 

间 定 - -password 时 ，CLI 会 提示 你 输入 密码 。 配 置 LDAP 密码 验证 模块 时 ， 你 已 经 设置 了 
用 户 绑 定 模式 。 

当 用 户 名 和 密码 从 客户 端 (也 就 是 我 们 例子 中 的 CLI) 传 给 Presto 协调 器 时 ，Presto 会 在 
绑 定 模式 中 填 入 用 户 名 作为 安全 主体 ， 并 将 密码 作为 安全 凭证 ， 将 它们 作为 LDAP 绑 定 请 
求 的 一 部 分 发 送出 去 。 在 我 们 的 例子 中 ， 用 于 匹配 目录 结构 中 的 可 分 辨 名 称 的 安全 主体 是 
uid=matt,0U=people,DC=example,DC=com。LDAP 目录 中 的 每 个 条 目 可 能 由 多 个 属性 组 成 。 











180 | 第 10 章 


其 中 一 个 属性 是 userPassword， 绑 定 操作 使 用 该 属性 来 匹配 发 送 的 密码 。 


Presto 可 以 根据 组 成 员 身 份 进一步 限制 访问 。 你 可 以 在 10.2 市 中 了 解 更 多 关于 组 的 重要 
性 。 通 过 使 用 组 ， 你 可 以 给 一 个 组 分 配 权限 ， 因 此 该 组 中 的 用 户 可 以 继承 该 组 的 所 有 权 
限 ， 而 无 须 单独 管理 权限 。 比 如 ， 你 想 只 允许 engineering 组 中 的 用 户 使 用 Presto。 在 我 
们 的 例子 中 ， 我 们 希望 用 户 matt 和 maria 而 非 用 户 jane 能 够 访问 Presto。 

















为 了 进一步 根据 组 成 员 资 格 限 制 用 户 ，Presto 允许 你 在 password-authenticator.properties 文 
件 中 指定 额外 的 属性 。 
ldap.user-base-dn=0U=people,DC=example,DC=com 


ldap.group-auth-pattern=(&(objectClass=inetOrgPerson)(uid=${USER})(memberof=CN= 
developers ,OU=groups ,DC=example ,DC=com)) 


在 我 们 的 例子 中 ， 前 面 的 过 滤器 在 基础 可 分 辨 名 称 中 限制 了 7 用户， 只 允许 属于 LDAP 中 的 
developers 组 的 用 户 访问 。 如 果 用 户 jane 试图 验证 ， 绑 定 操 作 会 成 功 ， 因 为 jane 是 一 个 有 
效 的 用 户 ， 但 这 个 用 户 终 将 被 过 滤 掉 ， 因 为 她 不 属于 developers 组 。 


10.2 授权 


在 10.1 节 中 ,你 了 解 了 认证 ， 或 者 说 向 Presto 证 明 你 是 谁 。 但 是 ， 在 一 个 有 很 多 用 户 和 敏 
感 数据 的 环境 中 ， 你 并 不 希望 通过 认证 的 任何 用 户 都 能 访问 所 有 数据 。 


























为 了 限制 访问 ， 你 需要 配置 用 户 可 以 做 什么 一 一 授权 。 让 我 们 先 来 研究 一 下 Presto 中 的 
SQL 模型 ， 看 看 有 哪些 访问 控制 。 然 后 ， 你 将 学 习 如 何在 系统 和 连接 器 层面 控制 Presto 的 
访问 权限 。 








10.2.1 系统 访问 控制 
系统 访问 控制 在 Presto 全 局 级 别 上 执行 授权 ， 并 允许 你 配置 catalog 的 访问 权限 和 安全 主体 
所 使 用 的 规则 。 


catalog 内 更 细 粒 度 的 权限 和 限制 必须 通过 连接 器 访问 控制 进行 配置 ， 参见 10.2.2 市 。 





如 10.1 节 所 述 ， 安 全 主体 是 用 于 通过 Presto 的 验证 的 实体 。 安 全 主体 可 以 是 单个 用 户 或 服 
务 账 户 。Presto 还 将 用 于 认证 的 安全 主体 与 运行 查询 的 用 户 分 开 。 例 如 ， 多 个 用 户 可 以 共 
享 一 个 安全 主体 进行 认证 ， 但 以 自己 的 身份 运行 查询 。 默 认 情 况 下 ，Presto 允许 任何 可 以 
认证 的 安全 主体 以 其 他 人 的 身份 运行 查询 : 














$ presto --krb5-principal alice@example.com --user bob 


这 通常 不 是 你 在 真实 环境 中 想 要 的 ， 因 为 它 可 能 会 使 一 个 用 户 (bob) 的 访问 权限 超出 其 授 








权 范 围 。 改 变 这 种 默认 行为 需要 额外 的 配置 ， 而 Presto 支持 一 组 内 置 的 系统 访问 控制 配置 。 


默认 情况 下 ，Presto 允许 经 过 认证 的 所 有 用 户 做 任何 事情 。 这 是 最 不 安全 的 配置 ， 不 建议 
在 生产 环境 中 部 署 时 使 用 。 虽 然 是 默认 配置 ， 但 你 仍 可 以 在 etc 目录 下 创建 一 个 access- 
control.properties 文件 来 显 式 地 设置 它 。 





access-control.name=allow-all 








只 读 授 权 稍 微 安 全 一 些 ， 因 为 它 只 允许 任何 读 取 数据 或 元 数据 的 操作 。 这 包括 SELECT 查 
询 ， 但 不 包括 CREATE、INSERT 和 DELETE 查询 。 











access-control.name=read-only 





使 用 这 种 方法 将 访问 控制 设置 为 只 读 ， 是 一 种 非常 快速 、 简 单 且 有 效 的 方 
法 ， 可 以 降低 Presto 使 用 底层 数据 的 风险 。 同 时 ， 只 读 访 问 完全 适用 于 分 析 
使 用 ， 你 可 以 轻松 地 创建 一 个 专用 的 Presto 集群 ， 允 许 公司 中 的 任何 人 访问 
大 量 的 数据 来 进行 数据 分 析 、 问 题 数据 排查 ， 或 者 仅仅 是 探索 和 学 习 更 多 
Presto 的 知识 。 


























要 配置 系统 访问 控制 ， 除 了 简单 的 aLLow-aLL 和 read-only 之 外 ， 还 可 以 使 用 基于 文件 的 
方法 。 这 可 以 让 你 指定 用 户 对 catalog 的 访问 控制 规则 ， 以 及 安全 主体 可 以 识别 为 哪些 用 
户 。 这 些 规则 是 在 你 维护 的 文件 中 指定 的 。 





当 使 用 基于 文件 的 系统 访问 控制 时 ， 所 有 对 catalog 的 访问 都 会 被 拒绝 ， 除 非 有 匹配 的 规则 
明确 赋予 用 户 权 限 。 你 可 以 在 etc 配置 文件 中 的 access-control.properties 文件 中 启用 基于 文 
件 的 访问 控制 : 


access-control.name=file 
security.config-file=etc/rules.json 





security.config-file 属性 指定 了 规则 文件 的 位 置 。 它 必须 是 一 个 JSON 文件 ， 使 用 下 面 
代码 中 详 述 的 格式 。 建 议 将 甚 与 其 他 所 有 配置 文件 存放 在 同一 目录 下 。 


€ 














"catalogs": [ 

{ 
"user": "admin", 
"catalog": "system", 
"allow": true 

}; 

{ 
"catalog": "hive", 
"allow": true 

}, 

{ 
"user": "alice", 
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"catalog": "postgresql", 
"allow": true 


} 
{ 
"catalog": "system", 
"allow": false 
} 
] 


Presto 会 按 顺 序 检查 规则 ， 并 使 用 第 一 个 匹配 的 规则 。 在 本 例 中 ， 管 理 员 用 户 可 以 访问 
system catalog， 而 最 后 一 条 规则 使 其 他 所 有 用 户 无 法 访问 它 。 前 面 提 到 ， 除 非 有 匹配 的 规 
则 ， 和 否则 所 有 的 catalog 访问 都 会 被 默认 拒绝 ， 但 例外 的 情况 是 ， 所 有 用 户 默认 都 有 访问 
system catalog 的 权限 。 








该 示例 文件 还 授予 了 所 有 用 户 对 hive catalog 的 访问 权限 ， 但 只 有 用 户 alice 被 授予 了 对 
postgresql catalog 的 访问 权限 。 


系统 访问 控制 对 于 限制 访问 是 非常 有 用 的 。 但 是 ， 它 们 只 能 在 catalog 级 配置 
访问 权限 ， 不 能 用 于 配置 更 细 粒 度 的 访问 权限 。 











如 前 所 述 ， 经 过 认证 的 安全 主体 可 以 默认 以 任何 用 户 的 身份 运行 查询 。 一 般 不 建议 这 样 
做 ， 因 为 这 允许 用 户 以 其 他 人 的 身份 访问 数据 。 如 果 连 接 器 实现 了 一 个 连接 器 访问 控制 ， 
这 意味 着 用 户 可 以 用 通过 认证 的 安全 主体 冒充 另 一 个 用 户 来 访问 他 本 不 能 访问 的 数据 。 因 
此 ， 必 须 在 安全 主体 和 运行 查询 的 用 户 之 间 执 行 适当 的 匹配 。 


























假设 我 们 想 把 用 户 名 设置 为 LDAP 安全 主体 的 名 称 : 
{ 


"catalogs": [ 
{ 
"allow": "all" 
} 
]; 
"principals": [ 
{ 
"prinelipal "es "(i*)", 
"principal_to user": "$1", 
"allow": "all" 
} 
] 
} 


可 以 进一步 扩展 到 强制 用 户 使 用 其 Kerberos 安全 主体 名 称 。 此 外 ， 我 们 还 可 以 将 用 户 名 匹 
配 到 可 能 共享 的 组 安全 主体 : 





"principals": [ 
{ 
"principal": “(L117?. *@Qexample.com" 
"principal_to user": "$1", 
"allow": "all" 


"principal": "group@Qexample.com", 
"user": "alice|bob", 
"allow": "all" 
} 
] 


因此 ， 你 必须 覆盖 相关 规则 以 获得 不 同 的 行为 。 在 这 种 情况 下 ， 用 户 bob 和 alice 可 以 使 
用 安全 主体 group@example.com， 也 可 以 使 用 自己 的 安全 主体 bob@example.com 和 alice@ 


example.com。 








10.2.2 ”连接 器 访问 控制 





回顾 一 下 ，Presto 为 了 查询 数据 而 暴露 的 那些 对 和 象 集合 。catalog 是 连接 器 的 配置 实例 。 一 
个 catalog 可 能 I 命名 空间 组 成 ， 称 为 schema， 而 schema 包含 了 一 组 使 用 某 些 数据 
类 型 和 数据 行 的 表 。 通 过 连接 器 访问 控制 ，Presto 允许 你 在 catalog 中 配置 细 粒 度 的 权限 。 


Presto 支持 标准 SQL 中 的 GRANT 语句 来 授予 用 户 或 角色 在 表 和 视图 上 的 权限 ， 也 支持 将 
用 户 成 员 资 格 授 予 角 色 。 如 今 ，Presto 支持 SQL 标准 所 定义 的 权限 的 一 个 子 集 。 在 Presto 
中 ， 你 可 以 向 一 个 表 或 视图 授予 以 下 权限 。 



































SELECT 
相当 于 读 取 权 限 。 


INSERT 
相当 于 创建 或 写 入 新 行 的 数据 权限 。 


DELETE 
相当 于 删除 行 的 数据 权限 。 








撰写 本 书 时 ， 只 有 Hive 连接 器 支持 角色 和 授权 。 这 一 功能 基于 连接 器 的 实 
现 ， 所 以 每 个 连接 器 都 需要 实现 ConnectorAccessControt 来 支持 这 个 标准 
SQL 功能 











我 们 来 看 一 个 例子 : 


GRANT SELECT on hive.ontime.flights TO matt; 
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运行 此 查询 的 用 户 将 在 hive catalog 下 ontime schema 中 flights 表 的 SELECT 权限 授予 用 
户 matt。 














你 可 以 选择 使 用 WITH GRANT OPTION 来 允许 被 授权 者 matt 授予 其 他 对 象 相同 的 权限 ， 你 
也 可 以 通过 过 号 分 隔 来 指定 一 个 以 上 的 权限 ， 或 者 使 用 ALL PRIVILEGES 来 授予 对 象 的 
SELECT、INSERT 和 DELETE 权限 。 


GRANT SELECT，DELETE on hive.ontime.flights TO matt WITH GRANT OPTION; 


要 授予 权限 ， 你 必须 拥有 相同 的 权限 和 GRANT OPTION， 或 者 你 必须 是 表 或 视 
图 的 所 有 者 ， 抑 或 是 拥有 表 或 视图 的 角色 成 员 。 在 撰写 本 书 时 ，Presto 没有 
办 法 改变 对 象 的 所 有 者 ， 所 以 这 必须 由 底层 数据 产 来 完成 。 例 如 ， 你 可 以 运 
行 下 面 的 SQL 语句 : 














ALTER SCHEMA ontime SET OWNER USER matt; 


角色 由 一 组 可 以 分 配给 用 户 或 另 一 个 角色 的 权限 所 组 成 ， 它 使 得 管理 多 个 用 户 的 权限 变 得 
更 加 容易 。 通 过 使 用 角色 ， 你 可 以 避免 直接 将 权限 分 配给 用 户 。 相 反 ， 你 把 权限 分 配给 一 
个 角色 ， 然 后 将 用 户 分 配给 该 角色 并 使 其 继承 这 些 权 限 。 多 个 角色 也 可 以 分 配给 一 个 用 
户 。 一 般 来 说 ， 使 用 角色 来 管理 权限 是 最 佳 实践 。 























让 我 们 再 次 使 用 flights 表 的 例子 ， 并 使 用 角色 : 





CREATE ROLE admin; 
GRANT SELECT, DELETE on hive.ontime.flights TO admin; 
GRANT admin TO USER matt, martin; 


现在 ,假设 你 想 移 除 一 个 用 户 的 权限 。 你 可 以 简便 地 从 用 户 身 上 移 除 该 角色 ， 而 不 是 逐个 
去 移 除 该 用 户 对 某 一 对 象 的 所 有 权限 : 





REVOKE admin FROM USER matt; 


除了 移 除 分 配给 用 户 的 角色 之 外 ， 你 还 可 以 从 角色 中 移 除权 限 ， 使 该 角色 的 所 有 用 户 不 再 
拥有 该 权限 : 


REVOKE DELETE on hive.ontime.flights FROM admin; 


在 这 个 例子 中 ， 我 们 撤销 了 admin 角色 在 flights 表 上 的 DELETE 权限 。 但 是 ，admin 角色 
及 其 成 员 仍 然 拥 有 SELECT 权限 。 








用 户 可 能 属于 多 个 角色 ， 而 这 些 角 色 可 能 有 独立 或 交 又 的 权限 集合 。 当 用 户 运行 一 个 查询 
时 ，Presto 会 检查 用 户 自己 的 权限 和 通过 角色 所 分 配 到 的 权限 。 如 果 你 只 想 使 用 自己 所 属 
的 单个 角色 的 权限 ， 则 可 以 使 用 SET ROLE 命令 。 假 设 你 同时 属于 admin 角色 和 developer 
角色 ， 但 只 想 使 用 分 配给 developer 角色 的 权限 : 











SET ROLE developer; 


也 可 以 将 角色 设置 为 ALL， 这 时 Presto 会 检查 每 个 角色 的 权限 ， 当然， 还 可 以 将 其 设置 
为 NONE。 


10.3 加密 


加 密 是 将 数据 从 可 读 形式 转化 为 不 可 读 形 式 的 过 程 ， 可 用 于 传输 或 存储 [ 也 称 为 静态 (at 
rest) 数据 ] 中 。 在 接收 端 ， 只 有 经 过 授权 的 用 户 才 能 将 数据 转换 回 可 读 形式 ， 这 可 以 防止 
任何 截获 数据 的 恶意 攻击 者 读 取 数 据 。Presto 使 用 标准 的 加 密 技术 对 传输 和 存储 中 的 数据 
进行 加 密 。 表 10-1 对 比 了 明文 数据 和 加 密 数据 。 


表 10-1: 等 效 明 文 格式 和 加 密 格 式 的 比较 
明 文 密 ” 文 
SSN: 123-45-6789 SoMgKBe38tSsOpl/Rg7lITExIWtCITEzIfSVydAHF8GuxlcpnCe= 





传输 中 的 加 密 数据 存在 于 以 下 数据 传输 链 路 ， 如 图 10-3 所 示 。 








。 客户 端 (如 JDBC 客户 端 或 Presto CLI) 和 Presto 协调 器 之 间 (图 10-3 左 侧 )。 
。 Presto 集群 内 ， 协 调 器 与 工作 节点 之 间 (图 10-3 中 心 )。 
。 从 catalog 中 配置 的 数据 源 到 集群 中 的 工作 节点 和 协调 器 (图 10-3 右 侧 )。 








TEA EE 














10-3: 数据 传输 中 的 加 密 场景 
对 静态 数据 的 加 密 包 括 以 下 几 个 地 方 ， 如 图 10-4 所 示 。 
。 Presto 集群 之 外 的 数据 源 (图 10-4 右 侧 )。 
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。 Presto 集群 内 工作 节点 和 协调 器 上 用 于 磁盘 溢出 功能 的 存储 (图 10-4 左 侧 )。 













VEYAOTIEE 














图 10-4: 静态 数据 的 加 密 场景 
上 述 的 每 一 个 组 件 都 可 以 在 Presto 中 独立 配置 ， 图 10-4 中 的 S3 只 是 连接 数据 源 的 一 个 例子 。 





这 些 不 同 的 加 密 用 法 可 以 组 合 在 一 起 。 例 如 ， 你 可 以 将 Presto 配置 为 加 密 客户 端 与 协调 器 
的 通信 以 及 集群 间 通 信 ， 但 不 对 静态 数据 加 密 ， 因 此 不 安全 ， 或 者 可 以 选择 配置 Presto 只 
加 密 客户 端 与 协调 器 的 通信 。 

虽然 每 个 组 合 都 可 以 配置 ， 但 有 些 组 合并 没有 什么 意义 。 例 如 ， 只 加 密集 群 间 通 信 而 不 加 
密 客 户 端 与 协调 器 之 间 的 通信 是 没有 意义 的 ， 因 为 这 样 做 会 导致 Presto 客户 端 查询 时 所 访 
问 到 的 任何 数据 都 可 能 受到 攻击 。 























如 前 所 述 ，Presto 中 的 外 部 和 内 部 通信 完全 通过 HITP 进行 。 为 了 确保 客户 端 和 协调 器 
之 间 的 通信 以 及 集群 间 的 通信 安全 ，Presto 可 以 配置 为 在 HTTP 之 上 使 用 传输 层 安 全 
(TLS)， 简 称 HITPS。TLS 是 一 种 在 网 络 上 加 密 数据 的 加 密 协议 ，HTTPS 使 用 TLS 来 保 
护 HTTP 的 安全 。 





TLS 是 安全 套 接 字 层 (SSL) 的 继承 者 ， 有 时 这 两 个 术语 可 以 互 换 使 用 。 
SSL 是 一 个 较 老 的 协议 ， 存 在 着 已 知 的 漏洞 ， 被 认为 是 不 安全 的 。 因 为 SSL 
很 有 知名 度 并 且 其 名 称 已 得 到 广泛 认可 ， 所 以 当 有 人 提 到 SSL 时 ， 往 往 也 是 
指 TLS。 






































日 常 上 网 的 你 可 能 对 HTTPS 并 不 陌生 ， 因 为 现在 大 多 数 网 站 使 用 HTTPS。 如 果 你 登录 网 
上 银行 账户 ，HTTPS 就 用 于 加 密 Web 服务 器 和 你 的 Web 浏览 器 之 间 的 数据 。 在 现代 Web 
浏览 器 上 ， 你 通常 会 在 地 址 行 中 看 到 一 个 挂 锁 图 标 ， 表 明 数 据 传输 是 安全 的 ， 而 且 你 所 连 
接 的 服务 器 与 证 书 中 标识 的 服务 器 一 致 。 




















HTTPS 是 如 何 工作 的 


虽然 本 章 并 不 打算 深入 探讨 TLS 的 技术 细节 ， 但 你 应 该 了 解 基 本 概念 ， 以 便 理 解 
HTTPS 如 何 与 Presto 一 起 工作 。 我 们 已 经 讨论 了 Presto 如 何 通过 HTTPS 来 使 用 TLS 
加 密 传输 中 的 数据 。 任何 恶意 用 户 在 网 络 上 窃听 和 拦截 Presto 中 正在 处 理 的 数据 ， 邦 
将 无 法 查看 原始 的 未 加 密 数 据 。 














当 用 户 从 浏览 器 连接 到 网 页 时 ， 网 页 所 在 的 服务 器 发 送 TLS 证 书 以 启动 TLS 握手 ， 就 
这 样 开启 了 创建 安全 通信 的 过 程 。TLS 证 书 依 赖 于 公 钥 ( 非 对 称 ) 密码 学 ， 在 握手 过 
程 中 ， 它 被 用 来 建立 一 个 用 于 会 话 期 间 对 称 加 密 的 密 钥 。 在 握手 过 程 中 ， 双 方 协商 要 
使 用 的 加 密 算 法 ， 并 验证 TLS 证 书 是 否 可 信 ， 以 及 服务 器 是 否 和 证 书 声明 的 一 致 。 在 
握手 后 ， 双 方 生 成 会 话 密 钥 ， 用 于 加 密 数据 。 握手 完成 后 ， 双 方 之 间 的 数据 仍 是 加 密 
的 ， 这 些 数 据 将 在 会 话 期 间 建 立 的 安全 信道 中 传输 ， 如 图 10-5 所 示 。 








Web 浏览 器 














图 10-5: 使 用 TLS 来 保护 客户 端 Web 浏览 器 和 Web 服务 器 之 间 的 通信 





10.3.1 加 密 Presto 客 户 端 与 协调 器 之 间 的 通信 

保证 客户 端 和 了 Presto 之 间 的 流量 安全 很 重要 ， 原因 有 二 : 首先 ， 如 果 你 使 用 的 是 LDAP 认 
证 ， 则 密码 是 以 明文 形式 传输 的 ， 而 使 用 Kerberos 认证 ，SPNEGO 令 牌 也 可 以 被 拦截 ， 其 
次 ， 查 询 返 回 的 任何 数据 都 是 明文 的 。 








了 解 加 密 算法 TLS 提 手 的 底层 细节 对 于 理解 Presto 如 何 加 密 网 络 流 量 并 不 重要 ， 但 了 解 
更 多 关于 证 书 的 信息 很 重要 ， 因 为 你 需要 创建 和 配置 证 书 以 供 Presto 使 用 。 图 10-5 描述 
了 客户 端 Web 浏览 器 和 Web 服务 器 之 间 通 过 HTTPS 加 密 的 通信 。 这 正 是 Presto 协调 器 和 
Presto 客户 端 之 间 的 HTTPS 通信 ， 如 Presto Web UI、Presto CLI 或 JDBC 驱动 ， 如 图 10-6 
所 示 。 


















HTTPS 
Presto Web UI 


Presto CLI 


图 10-6: 在 Presto 客户 端 和 Presto 协调 器 之 间 通 过 HTTPS 进行 安全 通信 


HTTP9 








TLS 证 书 依赖 于 使 用 密 钥 对 的 公 钥 〈 非 对 称 ) 密码 学 。 
。 公 钥 : 任何 人 都 可 以 获得 。 





188 | 第 10 章 





。 私 钥 : 由 所 有 者 私有 。 
任何 人 都 可 以 使 用 公 钥 对 信息 进行 加 密 ， 而 只 有 拥有 私 钥 的 人 才能 解密 。 因 此 ， 


只 要 密 钥 





对 的 所 有 者 不 分 享 或 丢失 私 钥 ， 任 何 用 公 钥 加 密 的 消息 都 应 该 是 秘密 的 。TLS 证 书包 含 
证 书 的 域 、 证 书 的 签发 人 或 公司 、 公 钥 以 及 其 他 几 项 信息 ， 这 些 信息 用 私 钥 进行 散 列 和 加 


密 。 签 名 证 书 是 在 证 书 中 创建 签名 的 过 程 。 








这 些 证 书 通常 由 DigiCert 或 GlobalSign 等 可 信 的 证 书 机 构 签 发 。 这 些 权 威 机 构 会 验证 申 
请 颁发 证 书 的 人 是 否 是 他 们 所 说 的 人 ， 以 及 他 们 是 否 拥有 证 书 中 所 述 的 域 。 证 书 使 用 权威 
机 构 的 私 钥 签名 ， 它 们 的 公 钥 很 容易 获取 到 ， 通 常 默认 安装 在 大 多 数 操作 系统 和 Web 浏 





号 9B 


览 器 上 。 











签名 ， 并 与 证 书 中 的 内 容 进行 比较 ， 以 确保 其 没有 被 算 改 。 


在 TLS 握手 过 程 中 ， 证 书 的 签名 过 程 是 验证 真实 性 的 重要 环节 。 客 户 端 使 用 公 钥 对 来 解密 


现在 你 了 解 了 TLS 的 基础 知识 ， 让 我 们 来 看 看 如 何在 Presto 客户 端 和 协调 器 之 间 加 密 数 
据 。 为 了 在 Presto 协调 器 上 局 用 HITPS， 需 要 在 config.properties 文件 中 设置 额外 的 属性 








( 见 表 10-2 ) 。 


表 10-2: 用 于 HTTPS 通 信和 的 配置 属性 














属 性 描述 

http-server .https.enabLed 设置 为 true 开启 Presto 的 HITPS， 默 认为 false 

http-server .http.enabLed 设置 为 false 关闭 Presto 的 HITP， 默 认为 true 
http-server.https.port 设置 HTTPS 所 使 用 的 端口 ，8443 是 Java 应 用 服务 器 的 默认 端口 














http-server .https.keystore.path 虽 定 Java keystore 文件 的 路 径 ， 该 文件 包含 了 Presto 使 用 TLS 时 要 








用 到 的 私 钥 和 证 书 
http-server.https.keystore.key 指定 访问 Java keystore 时 的 密码 


即使 你 配置 Presto 使 用 HTTPS， 上 默认 情况 下 HTTP 也 是 启用 的 ， 


























复杂 的 问题 ， 你 可 以 通过 HTTP 测试 一 些 东西 是 否 在 工作 或 如 何 工作 。 


作为 一 个 例子 ， 你 可 以 将 下 面 这 儿 行 添加 到 config.properties 中 : 


http-server.https.enabled=true 

http-server.https.port=8443 
http-server.https.keystore.path=/etc/presto/presto_keystore.jks 
http-server.https.keystore.key=slickpassword 


记得 在 更 新 属性 文件 后 要 重新 启动 Presto 协调 器 。 





启用 


HTTPS 并 不 会 禁用 HTTP。 如 果 你 想 禁 用 HTTP 访问 ， 就 需要 对 HTTP 进行 
配置 。 然 而 ， 有 时 你 可 能 希望 在 完成 Presto 安全 环境 的 配置 之 前 ， 一 直 启 用 
HTTP。 这 是 调试 问题 的 好 方法 ， 因 为 这 样 的 话 ， 如 果 在 配置 过 程 中 遇 


到 了 
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Java keystore 和 Java truststore 


在 配置 加 密 的 同时 ， 你 需要 使 用 Java keystore。keystore 是 用 于 存储 加 密 密 钥 、X.509 
证 书 链 和 信任 证 书 的 存储 库 。 在 Presto 中 ，keystore 也 可 以 当 作 truststore 使 用 。 这 
些 存储 的 实现 或 使 用 这 些 存 储 的 工具 并 没有 什么 区 别 ， 主 要 的 区 别 在 于 keystore 和 
truststore 中 存储 的 内 容 以 及 使 用 方式 。keystore 用 于 证 明 你 自己 的 身份 ， 而 truststore 
则 用 于 确认 另 一 个 身份 。 


对 于 Presto 来 说 ，Presto 协调 器 需要 一 个 包含 私 钥 和 签名 证 书 的 keystore。 当 Presto 客 
户 问 连 接 时 ，Presto 会 将 此 证 书 作 为 TLS 握手 的 一 部 分 呈现 给 客户 端 。 


Presto 客户 痛 (如 CLI) 使 用 一 个 truststore， 其 中 包含 验证 服务 器 提供 的 证 书 的 真实 性 
所 需 的 证 书 。 如 果 Presto 协调 器 证 书 由 CA 签发 ， 那 么 truststore 包含 根 证 书 和 中 间 证 
书 。 如 果 你 不 使 用 CA， 则 truststore 需要 包含 相同 的 Presto TLS 证 书 。 自 签名 证 书简 
单 来 说 就 是 证 书 由 证 书 中 公 钥 对 应 的 私 钥 签名 。 这 些 证 书 的 安全 性 要 低 得 多 ， 因 为 攻 
击 者 可 以 在 中 间 人 攻击 中 欺骗 自 签名 证 书 。 在 使 用 自 签名 证 书 时 ， 你 必须 确保 客户 靖 
所 连接 的 网 络 和 计算 机 的 安全 性 。 由 于 整个 集群 通常 位 于 一 个 安全 的 网 络 内 ， 因 此 使 
用 自 签名 证 书 可 以 保证 集群 间 通 信 的 安全 性 。 











什么 是 X.509 证 书 ? 
X.509 标准 定义 了 公 钥 证 书 的 格式 ， 比 如 我 们 要 生成 的 Presto 安全 证 书 。 该 证 书包 括 
所 签发 的 域名 、 所 签发 的 个 人 所 在 的 组 织 、 签 发 日 期 和 到 期 日 、 公 钥 和 签名 。 证 书 可 
以 由 CA 签发 ， 也 可 以 自行 签发 。 更 多 信息 ， 可 以 参考 官方 标准 。 





10.3.2 ”创建 Java keystore 和 Java truststore 

Java 中 的 keytool 是 用 于 创建 和 管理 keystore 和 truststore 的 命令 行 工 具 ， 作 为 Java 开发 
工具 包 (JDK) 的 一 部 分 供用 户 使 用 。 让 我 们 通过 一 个 简单 的 例子 来 创建 Java keystore 和 
Java truststore。 为 简单 起 见 ， 我 们 使 用 自 签名 证 书 。 


























首先 ， 让 我 们 创建 Presto 协调 器 使 用 的 keystore。 下 面 的 keytool 命令 创建 了 一 个 公 / 私 钥 
对 ， 并 将 公 钥 封装 在 一 个 自 签 名 的 证 书 中 。 





$ keytool -genkeypair \ 
-alias presto_server \ 
-dname CN=*.example.com \ 
-validity 10000 -keyalg RSA -keysize 2048 \ 
-keystore keystore.jks \ 
-keypass password 
-storepass password 
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生成 的 keystore.jks 文件 需要 在 服务 器 上 使 用 ， 并 在 http-server.https.keystore.path 
属性 中 指定 。 类 似 的 用 法 也 适用 于 http-server.https.keystore.keystore.key 属性 中 的 
storepass 密码 。 





上 述 例子 使 用 的 是 通配符 证 书 ， 我 们 指定 通用 名 (CN) 为 *.examplLe.com。 若 Presto 
集群 中 的 所 有 布点 使 用 相同 的 域 ， 则 这 个 证 书 可 以 为 它们 所 共享 。 这 个 证 书 还 可 以 和 
coordinator .example.com、worker1.example.com、worker2.example.con 等 一 起 使 用 。 这 种 


方法 的 缺点 是 example.com 域 下 的 任何 节点 都 可 以 使 用 该 证 书 。 





你 可 以 通过 使 用 主题 替代 名 (SubjectAltName) 来 限制 子 域 ， 在 这 里 你 可 以 列 出 子 域 。 这 
允许 你 创建 单个 证 书 ， 它 可 以 为 一 个 有 限 的 、 特 定 的 主机 列表 所 共享 。 另 一 种 方法 是 为 每 
个 节点 创建 一 个 证 书 ， 这 要 求 你 为 每 个 节点 明确 定义 完整 的 域 。 这 增加 了 管理 负担 ， 并 且 
在 扩展 Presto 集群 时 具有 挑战 性 ， 因 为 新 节点 需要 绑 定 到 完整 域 的 证 书 。 


当 客 户 端 连接 到 协调 器 时 ， 协 调 器 将 其 证 书 发 送 给 客户 端 以 验证 其 真实 性 : 如果 是 自 签名 
的 ， 则 包含 协调 器 的 证 书 ， 如 果 是 由 CA 签发 的 ， 则 包含 一 个 证 书 链 。 稍 后 将 讨论 如 何 使 
用 CA 的 证 书 链 。 因 为 keystore 也 包含 了 证 书 ， 所 以 你 可 以 简单 地 将 keystore 复制 到 客户 
端 机 器 上 ， 并 将 其 作为 truststore 使 用 。 然 而 ， 这 并 不 安全 ， 因 为 keystore 也 包含 了 我 们 想 
要 保密 的 私 钥 。 要 创建 自 定义 的 truststore， 你 需要 从 keystore 中 导出 证 书 ， 然 后 将 其 导入 


truststore 中 。 










































































首先 ， 在 你 创建 keystore 的 协调 器 上 导出 证 书 : 


$ keytool --exportcert \ 
-alias presto_server \ 
-file presto_server.cer \ 
-keystore keystore.jks \ 
-storepass password 


这 个 命令 可 以 创建 一 个 presto_server.cer 证 书 文件 。 下 一 步 可 以 使 用 该 文件 来 创建 truststore: 





$ keytool --importcert \ 
-alias presto_server \ 
-file presto_server.cer \ 
-keystore truststore.jks \ 
-storepass password 


因为 证 书 是 自 签 名 的 ， 所 以 这 个 keytool 命令 会 提示 你 确认 信任 该 证 书 。 只 需 键入 yes， 
truststore.jks 就 会 被 创建 。 现 在 ， 你 可 以 安全 地 将 这 个 truststore 分 发 到 任何 使 用 客户 端 连 
接 协 调 器 的 机 器 上 了 。 








我 们 已 经 使 用 keystore 的 HITPS 启用 了 协调 器 ， 并 且 为 客户 端 创建 了 truststore， 现 在 可 
以 安全 地 连接 到 Presto， 并 且 客 户 端 和 协调 器 之 间 的 通信 是 加 密 的 。 下 面 是 使 用 Presto CLI 
的 例子 : 





$ presto --server https://presto-coordinator .example.com:8443 \ 
--truststore-path ~/truststore.jks \ 
--truststore-password password 


10.3.3 ”在 Presto 和 集群 内 加 密 通 信 


接 下 来 看 一 下 如 何 再 次 使 用 HTTP over TLS 来 保障 Presto 集群 内 工作 节点 之 间 以 及 工作 节 
点 和 协调 器 之 间 的 通信 ， 如 图 10-7 所 示 。 


虽然 客户 端 与 协调 器 之 间 的 通信 可 能 是 通过 不 受信 任 的 网 络 进行 的 ， 但 Presto 集群 通常 部 
署 在 一 个 更 安全 的 网 络 上 ， 这 使 得 集群 内 的 安全 通信 不 是 必需 的 。 不 过 ， 如 果 担 心 恶 意 攻 
击 者 能 够 进入 集群 的 网 络 ， 则 可 以 对 通信 加 密 

















与 确保 客户 端 与 协调 器 之 间 的 通信 安全 一 样 ， 集 群 内 部 通信 也 依赖 于 同一 个 keystore。 你 
在 协调 器 上 创建 的 这 个 keystore 必须 分 发 给 所 有 的 工作 节点 。 

















图 10-7: Presto 集群 中 节点 之 间 通 过 HTTPS 进行 安全 通信 





执行 TLS 握手 从 而 在 客户 端 和 服务 器 之 间 建 立信 任 和 创建 加 密 通 道 的 方法 ， 也 适用 于 集群 
间 通 信 。 集 群 中 的 通信 是 双向 的 ， 即 一 个 节点 可 以 作为 客户 端 向 另 一 个 节点 发 送 HTTPS 
请 求 ， 而 当 节 点 接收 到 请 求 并 将 证 书 呈 现 给 客户 端 进行 验证 时 ， 它 也 可 以 作为 服务 器 。 由 
于 面向 不 同 的 连接 ， 每 个 节点 同时 充当 客户 端 和 服务 器 ， 因 此 它 需要 一 个 同时 包含 私 铀 和 
证 书 中 公 铀 的 keystore。 




















所 有 市 点 都 需要 在 config.properties 中 启用 HTTPS， 包 括 内 部 通信 : 


http-server.https.enabled=true 
http-server.https.port=8443 


internal-communication.https.required=true 
discovery.uri=https://coordinator .example.com:8443 


internal-communication.https.keystore.path=/etc/presto/presto_keystore.jks 
internal-communication.https.keystore.key=slickpassword 
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别 筷 了 在 更 新 属性 文件 后 重 局 工作 节点 。 现 在 你 已 经 对 内 部 和 外 部 的 通信 做 出 了 完全 的 保 
护 ， 并 可 以 防止 网 络 上 的 窃听 者 从 Presto 截获 数据 。 








一 且 一 切 都 已 正常 工作 ， 记 得 在 config.properties 中 设置 http-server.http. 
enabled=false 来 禁用 HTTP， 否则 ， 用 户 仍 可 以 使 用 HTTP 连接 到 集群 。 











10.4 CA 与 自 签 名 证 书 

当 你 第 一 次 尝试 Presto 并 努力 将 其 配置 得 更 安全 时 ， 最 容易 的 方式 是 使 用 自 签 名 证 书 。 然 
而 实践 中 ， 你 的 组 织 可 能 不 允许 使 用 它 ， 因 为 在 某 些 情况 下 它们 不 是 很 安全 ， 并 且 容 易 受 
到 攻击 。 因 此 ， 你 可 以 使 用 由 CA 数字 签名 的 证 书 。 











一 旦 你 创建 了 keystore， 就 需要 创建 一 个 证 书签 名 请 求 (CSR) 以 发 送 给 CA 对 keystore 签 
名 。CA 会 验证 你 是 否 是 你 说 的 那个 人 ， 并 向 你 发 出 由 他 们 签名 的 证 书 。 然 后 ， 该 证 书 被 
导入 你 的 keystore 中 ， 并 将 提供 给 客户 端 来 替代 之 前 的 自 签名 证 书 。 


一 个 有 趣 的 地 方 与 Java truststore 的 使 用 有 关 。Java 提供 了 一 个 默认 的 truststore， 其 中 可 
能 已 经 包含 了 CA。 在 这 种 情况 下 ， 提 交 给 客户 端的 证 书 可 以 通过 默认 的 truststore 来 验 
证 ， 而 在 这 个 默认 truststore 不 包含 CA 时 就 可 能 很 腑 烦 。 或 者 你 的 组 织 可 能 有 自己 的 内 
部 CA， 用 于 向 员工 和 服务 发 布 组织 证 书 。 因 此 ， 即 使 你 使 用 了 CA,， 仍 建议 你 创建 自己 
的 truststore， 以 供 Presto 使 用 。 不 过 ， 此 时 你 可 以 导入 CA 证 书 链 ， 而 不 是 Presto 使 用 的 
实际 证 书 。 证 书 链 是 由 两 个 或 多 个 TLS 证 书 组 成 的 列表 ， 其 中 证 书 链 中 的 每 个 证 书 都 由 链 
中 的 下 一 个 证 书签 名 。 在 链 的 顶端 是 根 证书 ， 这 总 是 由 CA 自己 签名 。 它 被 用 于 签发 下 游 
的 证 书 一 一 中 间 证 书 。 你 发 布 的 Presto 证 书 是 由 中 间 证 书签 名 的 ， 也 就 是 链 中 的 第 一 个 证 
书 。 这 样 做 的 好 处 是 ， 如 果 有 多 个 Presto 集群 的 多 个 证 书 或 证 书 被 重新 签发 ， 无 须 每 次 都 
把 它们 重新 导入 你 的 truststore 中 ， 这 减少 了 CA 重新 签发 中 间 证 书 或 根 证 书 的 需求 。 





















































图 10-8 中 的 场景 展示 了 CA 签发 的 证 书 的 用 法 。truststore 只 包含 CA 的 中 间 证 书 和 根 证 
书 。 来 自 Presto 协调 器 的 TLS 证 书 在 客户 端 truststore 中 使 用 该 证 书 链 进 行 验证 。 





















客户 端 
truststore 











图 10-8: Presto 使 用 由 CA 签发 的 证 书 


假定 你 的 Presto 证 书 是 由 CA 签发 的 。 为 了 让 客户 端 信任 它 ， 我 们 需要 创建 一 个 包含 中 间 
证 书 和 根 证 书 的 truststore。 就 像 前 面 导 入 Presto 自 签 名 证 书 的 例子 一 样 ， 你 也 要 执行 同样 
的 CA 证 书 链 的 导入 : 
$ keytool --importcert \ 
-alias presto_server \ 
-file root-ca.cer \ 


-keystore truststore.jks \ 
-storepass password 


在 导入 根 CA 证 书后 ， 继 续 从 链 上 导入 所 有 必要 的 中 间 证 书 : 


$ keytool --importcert \ 
-alias presto_server \ 
-file intermediate-ca.cer \ 
-keystore truststore.jks \ 
-storepass password 


注意 ， 中 间 证 书 可 能 不 止 一 个 ， 为 了 简单 起 见 ， 这 里 只 使 用 一 个 。 


10.5 证 书 认 证 


现在 你 已 经 了 解 了 TLS、 证 书 和 Java keytool 的 相关 用 法 ， 下 面 可 以 看 看 如 何 利 用 这 些 工 
具 对 使 用 TLS 连接 到 Presto 的 客户 端 进行 验证 。 这 种 证 书 认 证 如 图 10-9 所 示 。 
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Presto WebUl 














图 10-9: Presto 客户 端的 证 书 认证 





作为 TLS 担 手 协议 的 一 部 分 ， 服 务 器 向 客户 端 提供 证 


上 ， 以 便 客 户 端 对 服务 器 进行 认证 。 


相互 TLS 指 在 握手 过 程 中 客户 端 也 要 向 服务 器 提供 证 书 ， 以 便服 务 器 对 客户 端 进行 认证 。 
服务 器 验证 证 书 的 方式 与 你 所 看 到 的 客户 端 验证 证 书 的 方式 相同 。 为 了 验证 ， 服 务 器 需要 








包含 CA 链 的 truststore 或 自 签发 证 书 。 





要 配置 Presto 协调 器 进行 相互 TLS 认证 ， 你 需要 在 协调 器 的 config.properties 文件 中 添加 


一 些 属性 。 让 我 们 来 看 一 个 完整 的 配置 : 





http-server .http.enabLed=faLse 
http-server .https.enabLed=true 
http-server .https.port=8443 


http-server .https.keystore.path=/etc/presto/prest 
http-server .https.keystore.key=sLickpassword 


http-server .https.truststore.path=/etc/presto/pre 
http-server .https.truststore.key=sLickpassword 


node.internal-address-source=FQDN 
internal-communication.https.required=true 
internal-communication.https.keystore.path=/etc/p 
internal-communication.https.keystore.key=slickpa 


http-server.authentication.type=CERTIFICATE 





0_keystore.jks 


sto_truststore.jks 


resto/presto_keystore.jks 
ssword 





属性 http-server.authentication 表示 要 使 用 的 认证 类 型 。 在 这 种 情况 下 ，Presto 使 用 的 
是 CERTIFICATE 认证， 这 使 得 Presto 协调 器 使 用 完整 的 TLS 握手 协议 进行 相互 认证 。 尤 
其 是 ， 服 务 器 端的 协调 器 将 证 书 请 求 消息 作为 完整 的 TLS 握手 协议 的 一 部 分 发 送 给 客户 
端 ， 以 提供 已 签名 的 证 书 用 于 验证 。 此 外 ， 为 了 验证 客户 端 提 交 的 证 书 ， 你 需要 在 协调 器 





上 配置 truststore。 


下 面 用 CLI 命令 连接 到 Presto: 








$ presto --server https://presto-coordinator .example.com:8443 \ 
--truststore-path ~/truststore.jks \ 
--truststore-password password 
--USser matt 

presto> SELECT * FROM system.runtime.nodes; 

Error running command: Authentication failed: Unauthorized 





你 会 发 现 认 证 失败 了 ， 因 为 客户 端 没 有 使 用 拥有 证 书 的 keystore 来 向 协调 器 提供 客户 端 证 
书 进行 相互 认证 。 

你 需要 修改 命令 来 包含 keystore。 注 意 ， 这 个 keystore 与 集群 上 的 keystore 不 同 ， 这 个 
keystore 专门 包含 了 客户 端的 密 钥 对 。 下 面 先 在 客户 端 上 创建 keystore。 





$ keytool -genkeypair \ 
-alias presto_server \ 
-dname CN=matt \ 
-validity 10000 -keyalg RSA -keysize 2048 \ 
-keystore client-keystore.jks \ 
-keypass password 
-storepass password 


在 这 个 例子 中 ， 可 以 看 到 我 们 将 CN 设置 为 用 户 matt。 在 这 种 情况 下 ， 这 很 有 可 能 是 一 个 
自 签发 证 书 ， 或 者 是 所 在 组 织 有 自己 的 内 部 CA。 下 面 在 CLI 命令 中 指定 客户 端 keystore: 


5 presto --server https://presto-coordinator.exampLe.Ccom:8443 \ 
--truststore-path ~/truststore.jks \ 
--truststore-password password 
--keystore-path ~/client-keystore.jks \ 
--keystore-password password 
--USser matt 


presto> SELECT * FROM system.runtime.nodes; 

Query failed: Access Denied: 

Authenticated user AuthenticatedUser[username=CN=matt,principal=CN=matt] 
cannot become user matt 


现在 我 们 已 经 认证 了 ， 但 授权 失败 了 。 回 顾 一 下 ， 认 证 是 证 明 你 是 谁 ， 而 授权 则 控制 你 能 
做 什么 。 








对 于 证 书 认证 ，Presto 会 从 X.509 证 书 中 提取 主体 的 专 有 名 称 。 这 个 值 作为 安全 主体 与 用 
户 名 进行 比较 。 除 非 在 CLI 中 使 用 ---user 选项 明确 指定 ， 否 则 用 户 名 默认 为 操作 系统 的 
用 户 名 。 本 例 中 ， 用 户 matt 会 与 证 书 CN=matt 中 的 可 分 辨 名 称 比 较 。 一 种 变通 方法 是 将 该 
选项 作为 - -user CN=matt 传递 给 CLI。 另 外 ， 你 也 可 以 利用 前 面 学 过 的 内 置 的 、 基 于 文件 
的 系统 访问 控制 进行 一 些 自 定义 。 




















首先 ， 需 要 在 Presto 协调 器 上 的 Presto 安装 目录 创建 一 个 文件 access-control.properties: 


access-control.name=file 
security.config-file=/etc/presto/rules.json 





然后 需要 在 协调 器 上 创建 rules.json 文件 ， 放 在 access-control.properties 文件 中 指定 的 路 径 
位 置 ， 并 定义 从 principal 到 user 的 映射 ， 其 中 必须 包含 CN=: 





{ 


"catalogs": [ 


{ 
"allow": true 
} 
]， 
"principals": [ 
{ 
"principal": "CN=(.*)", 
"principal_to user": "$1", 
"allow": true 
} 
] 
} 


我 们 正 将 一 个 安全 主体 的 正则 表达 式 与 捕获 组 进行 匹配 。 然 后 ， 我 们 使 用 这 个 捕获 组 来 将 
安全 主体 映射 到 用 户 。 在 我 们 的 例子 中 ，regex 匹配 CN=matt， 其 中 matt 是 捕获 组 中 的 一 
部 分 ， 它 被 映射 到 用 户 。 当 你 创建 了 这 些 文件 并 重启 协调 器 后 ， 证 书 认 证 和 用 户 对 应 的 安 
全 主体 认证 都 会 生效 : 
































SELECT * FROM system.runtime.nodes; 
-[ RECORD 1 J+- 


node_id | i-0779df73d79748087 

http_uri | https://coordinator .example.com:8443 
node_version | 312 

coordinator | true 

state | active 

a RECORD 2 Te De 
node_id | i-0d3fba6fcba08ddfe 

http_uri | https://worker-1.example.com:8443 
node_version | 312 

coordinator | false 

state | active 


10.6 Kerberos 


网 络 认 证 协议 Kerberos 使 用 广泛 。Presto 支持 Kerberos 对 使 用 Hive 连接 器 的 Presto 用 户 
来 说 尤为 关键 (参见 6.4 节 )， 因 为 Kerberos 是 HDFS 和 Hive 常用 的 验证 机 制 。 





Kerberos 文档 对 学 习 协 议 以 及 相关 概念 和 术语 非常 有 用 。 本 市 假设 你 对 这 些 
方面 已 足够 熟悉 ， 或 者 已 阅读 了 一 些 文档 和 其 他 资料 。 


























Presto 支持 客户 端 通过 使 用 Kerberos 验证 机 制 在 协调 器 那里 验证 身份 。Hive 连接 器 可 以 在 
使 用 Kerberos 认证 的 Hadoop 集群 那里 验证 身份 。 








与 LDAP 类 似 ，Kerberos 是 一 种 认证 协议 ， 安 全 主体 可 以 使 用 用 户 名 和 密码 或 keytab 文件 
进行 认证 。 


10.6.1 前 提 条 件 

Kerberos 需要 在 Presto 协调 器 上 配置 ， 该 协调 器 需要 能 够 连接 到 Kerberos 密 钥 分 发 中 心 
(key distribution center，KDC)。KDC 负责 认证 安全 主体 ， 并 签发 可 以 与 已 启用 Kerberos 
的 服务 一 起 使 用 的 会 话 密 钥 。KDC 通常 使 用 TCP/P 端口 88。 


要 使 用 MIT Kerberos， 你 需要 在 /etc/krb5.conf 配置 文件 中 设置 一 个 [reatms] 段 。 


10.6.2 Kerberos 客 户 端 认证 


要 启用 Presto 的 Kerberos 认证 ， 你 需要 在 Presto 协调 器 的 config.properties 文件 中 添加 详 
细 信 息 ， 还 需要 更 改 验 证 类 型 ， 配 置 keytab 文件 的 位 置 ， 并 指定 要 使 用 的 Kerberos 服务 账 
户 的 用 户 名 : 

http-server .authentication.type=KERBEROS 


http.server .authentication.krb5.service-name=presto 
http.server.authentication.krb5.keytab=/etc/presto/presto.keytab 


对 于 客户 端的 认证 ， 不 需要 对 工作 节点 配置 进行 任何 更 改 。 工 作 节 点 继续 通过 未 认证 的 
HTTP 连接 到 协调 器 。 





要 连接 到 这 个 已 开启 Kerberos 的 Presto 集群 ， 用 户 需 要 在 客户 端 上 设置 他 们 的 keytab 文 
件 、 安 全 主体 和 krb5.conf 配置 文件 ， 然 后 使 用 相关 的 Presto CLI 参数 或 JDBC 连接 的 属 
性 。 你 可 以 在 Presto 文档 中 找到 所 有 的 细节 ， 甚 中 还 包括 了 一 个 小 的 封装 脚本 。 











10.6.3 ”集群 内 部 Kerberos 


如 果 你 想 确保 集群 内 部 通信 的 安全 ， 必 须 在 工作 节点 上 启用 Kerberos 认证 ， 并 且 需 要 将 内 
部 通信 更 改 为 使 用 SSL/TLS， 参 见 10.3.3 节 。 这 需要 为 内 部 通信 指定 有 效 的 Kerberos 凭证 。 





Presto 本 身 ， 以 及 任何 用 Kerberos 连接 到 Presto 的 用 户 ， 都 需要 Kerberos 安全 主体 。 你 需 
要 用 kadmin 在 Kerberos 中 创建 这 些 用 户 。 此 外 ，Presto 协调 器 还 需要 keytab 文件 。 





当 使 用 Kerberos 认证 时 ， 客 户 端 应 使 用 HTTPS 访问 Presto 协调 器 ， 参 见 10.3.1 节 。 





如 果 你 想 让 Presto 在 Kerberos 安全 主体 使 用 某 个 host 值 而 不 是 机 器 的 主机 名 ， 则 可 以 设置 
协调 器 的 Kerberos 主机 名 (这 是 个 可 选 设置 )。 你 还 可 以 指定 Kerberos 配置 文件 krb5.conf 
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的 所 在 位 置 ， 而 不 是 默认 的 /etc/krb5.conf: 


http.server.authentication.krb5.principal-hostname=presto.example.com 
http.authentication.krb5.config=/etc/presto/krb5.conf 


为 了 保证 集群 内 部 通信 的 安全 ， 你 需要 为 内 部 通信 指定 有 效 的 Kerberos 凭证 并 启用 它 : 





internal-communication.kerberos.enabled=true 


确保 你 也 在 工作 节点 上 设置 了 Kerberos。 用 于 内 部 通信 的 Kerberos 安全 主体 是 由 http. 
server .authentication.krb5.service-name 建立 的 ， 其 后 追加 了 Presto 运行 节点 的 主机 名 
和 Kerberos 配置 的 默认 realm。 


站 FE 一、 天: 一 
10.7 ”数据 源 访问 和 安全 配置 
在 图 10-10 中 可 以 看 到 Presto 数据 安全 的 另 一 个 方面 。 在 Presto 中 配置 的 每 个 catalog 都 包 
括 连 接 字符 串 以 及 用 于 连接 到 数据 源 的 用 户 凭证 。 不 同 的 连接 器 和 目标 数据 源 系统 允许 不 
同 的 访问 配置 。 
































用 户 首先 向 协调 器 进行 认证 。Presto 连接 器 向 数据 源 发 出 请 求 ， 这 通常 也 需要 认证 。 












RDBMS 











10-10: 影响 用 户 数据 的 数据 源 安 全 配置 


从 连接 器 到 数据 源 的 认证 取决 于 连接 器 的 实现 。 在 许多 连接 器 实现 中 ，Presto 以 服务 用 户 
的 身份 进行 认证 。 因 此 ， 对 于 这 类 连接 器 来 说 ， 无 论 执行 查询 的 用 户 是 谁 ， 查 询 都 是 以 服 
务 用 户 的 身份 在 底层 系统 中 执行 的 。 

如 果 连 接 目标 数据 源 使 用 的 用 户 凭证 不 包括 任何 写 权限 ， 那 么 你 可 以 有 效 地 限制 所 有 的 
Presto 用 户 只 能 进行 只 读 操 作 和 查询 。 同 样 ， 如 果 该 用 户 赁 证 没有 对 特定 schema、 数 据 库 
甚至 表 的 访问 权限 ， 使 用 Presto 查询 也 有 同样 的 限制 。 






































为 了 提供 更 精细 的 访问 控制 ， 你 可 以 创建 多 个 具有 不 同 权限 的 服务 用 户 。 这 样 就 可 以 用 相 
同 的 连接 器 连接 到 同一 个 数据 源 来 配置 多 个 catalog， 但 使 用 不 同 的 服务 用 户 。 








与 使 用 不 同 的 服务 用 户 类 似 ， 你 也 可 以 用 不 同 的 连接 字符 串 创 建 catalog。 例 如 ，PostgreSQL 
连接 字符 串 包 括 一 个 数据 库 名 称 ， 这 意味 着 你 可 以 创建 不 同 的 catalog， 从 而 分 开 访 问 这 些 
运行 在 同一 PostgreSQL 服务 器 上 的 数据 库 。 类 似 地 ，MS SQL Server 连接 字符 串 允 许 对 可 
选 的 配置 指定 数据 库 。 


有 具体 连接 字符 串 、 用 户 赁 证 等 问题 已 在 第 6 章 讨论 过 。 











除了 schema 和 database 层面 ， 你 甚至 可 以 将 访问 权限 和 数据 内 容 配置 一 直下 推 到 数据 库 
本 身 。 如 果 你 想 限 制 对 表 中 的 某 些 列 或 表 中 的 某 些 行 的 访问 权限 ， 则 可 以 限制 对 源 表 的 访 
问 权限 ， 并 创建 具有 所 需 内 容 的 视图 。 这 些 视图 在 Presto 中 就 像 使 用 传统 表 一 样 ， 从 而 
实现 了 安全 性 。 极 端的 场景 是 创建 单独 的 数据 库 或 使 用 ETL 工具 的 数据 仓库 ， 甚 至 包括 
Presto 本 身 。 可 以 在 Presto 中 单独 为 这 些 带 有 所 需 数据 的 目标 数据 库 配 置 catalog 访问 。 











如 果 你 最 终 在 Presto 部 署 中 用 前 面 的 一 些 逻 辑 定义 了 多 个 catalog， 并 且 想 允许 特定 用 户 访 
问 这 些 catalog， 则 可 以 利用 系统 访问 控制 来 做 到 这 一 点 (参见 10.2.1 节 )。 





在 一 些 Presto 连接 器 和 商业 连接 器 中 ,一 个 相对 较 新 的 功能 是 终端 用 户 扮演 (end-user 
impersonation)。 这 允许 将 Presto CLI 或 其 他 工具 中 的 终端 用 户 凭证 一 路 传递 到 数据 源 ， 之 
后 在 Presto 中 的 访问 权限 就 可 以 反映 数据 库 中 配置 的 访问 权限 。 





数据 源 安全 配置 的 一 个 常见 例子 是 使 用 Kerberos 连接 HDFS 和 使 用 Hive 连接 器 (参见 6.4 
节 )， 我 们 将 在 10.8 节 中 介绍 相关 细节 。 


10.8 ”使 用 Hive 连 接 器 进行 Kerberos 验 证 


了 解 了 Kerberos 配置 和 数据 源 安全 的 基础 知识 后 ， 下 面 来 看 看 Kerberos、HDFS/Hive 和 
Hive 连接 器 的 组 合 使 用 。 

默认 情况 下 ，Hive 连接 器 没有 启用 认证 ， 但 该 连接 器 支持 Kerberos 认证 。 你 需要 做 的 就 是 
将 连接 器 配置 为 与 Hadoop 集群 上 的 两 个 服务 一 起 工作 。 


。 Hive Metastore Thrift 服务 
。 HDFS 


如 果 你 的 krb5.conf 不 在 /etc/krb5.conf 内 ， 则 必须 使 用 jvm.config 文件 中 的 
java.security.krb5.conf 这 个 JVM 属性 显 式 地 进行 设置 。 























-Djava.security.krb5.conf=/exampLe/path/krb5.conf 
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10.8.1 Hive Metastore Thrift 服 务 认证 


在 开启 了 Kerberos 的 Hadoop 集群 中 ，Presto 通过 使 用 简单 认证 和 安全 层 (simple authentication 
and security layer，SASL) 连接 到 Hive Metastore Thrift 服务 ， 并 使 用 Kerberos 进行 认证 。 
你 可 以 在 catalog 属性 文件 中 轻松 地 为 HMS 启用 Kerberos 认证 。 











hive.metastore.authentication.type=KERBEROS 
hive.metastore.service.principal=hive/hive-metastore-host.example.com@EXAMPLE.COM 
hive.metastore.client.principal=presto@EXAMPLE.COM 
hive.metastore.client.keytab=/etc/presto/hive.keytab 


这 个 设置 激活 了 将 Kerberos 用 于 认证 HMS 的 功能 ， 它 还 配置 了 连接 到 Metastore 服务 时 


Presto 所 使 用 的 Kerberos 安全 主体 和 keytab 文件 的 位 置 。 注 意 ，keytab 文件 必须 分 发 到 集 
群 中 的 每 个 市 点 。 











hive.metastore.service.principal 可 以 在 其 值 中 使 用 _H05T 占 位 符 。 当 连 
接 到 HMS 时 ，Hive 连接 器 会 用 它 所 连接 的 Metastore 服务 器 的 主机 名 来 代 
替 这 个 值 。 如 果 Metastore 在 多 个 主机 上 运行 ， 这 会 很 有 用 。 同 样 ，hive. 
metastore.client.principal 也 可 以 在 其 值 中 使 用 _HoST 占 位 符 。 当 连接 到 
HMS 时 ，Hive 连接 器 会 用 Presto 工作 节点 的 主机 名 来 代替 。 如 果 每 个 工作 
节点 都 有 自己 的 Kerberos 安全 主体 ， 则 这 种 配置 方式 非常 有 用 。 


























Presto 以 hive.metastore.client.principal 属性 指定 的 Kerberos 安全 主体 的 身份 发 起 连 
接 ， 并 使 用 hive.metastore.client.keytab 属性 指定 的 keytab 来 验证 这 个 安全 主体 。 它 验 
证 Metastore 的 身份 是 否 与 hive.metastore.service.principal 匹配 。 











由 hive.metastore.client.principal 指定 的 安全 主体 必须 有 足够 的 权限 来 删 
除 hive/war@ ouse 目录 内 的 文件 和 子 目 录 。 如 果 没 有 这 个 权限 ， 则 只 有 元 数 
据 会 被 删除 ， 而 数据 本 身 会 继续 消耗 磁盘 空间 ， 这 是 因为 由 HMS 负责 删除 
内 部 表 数 据 。 当 Metastore 被 配置 为 使 用 Kerberos 认证 时 ， 由 Metastore 执行 
的 所 有 HDFS 操作 都 会 由 Presto 代办 。 删 除数 据 的 错误 会 被 默默 忽略 。 





























10.8.2 HDFS 认 证 


对 HDFS 启用 Kerberos 认证 类 似 于 Metastore 的 认证 ， 在 连接 器 属性 文件 中 需要 设置 的 属 
性 如 下 所 示 。 当 验证 类 型 为 KERBEROS 时 ，Presto 会 以 hive.hdfs.presto.principal 属性 指 


定 的 安全 主体 来 访问 HDFS。Presto 使 用 由 hive.hdfs.presto.presto.keytab 属性 指定 的 
keytab 来 验证 这 个 安全 主体 。 

















hive.hdfs.authentication.type=KERBEROS 
hive.hdfs.presto.principal=hdfs@EXAMPLE.COM 
hive.hdfs.presto.keytab=/etc/presto/hdfs.keytab 
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10.9 集群 分 离 
另 一 个 大 规模 的 安全 方案 是 ， 通 过 在 相互 独立 的 Presto 集群 上 使 用 数据 源 和 配置 catalog， 
实现 它们 的 完全 分 离 。 这 种 分 离 对 很 多 场景 非常 有 用 。 
。 将 只 读 操作 从 ETL 和 其 他 写 操作 的 场景 中 分 离 出 来 。 
由 于 数据 监管 要 求 ， 需 要 在 完全 不 同 的 基础 设施 上 托管 集群 。 例 如 ， 一 边 是 Web 流量 
数据 ， 一 边 是 医疗 、 金 融 或 个 人 数据 等 受 严 格 监管 的 数据 。 
这 种 集群 的 分 离 可 以 让 你 针对 不 同 的 场景 和 数据 优化 集群 配置 ， 或 者 将 集群 放置 在 更 接近 
数据 的 地 方 。 这 两 种 情况 都 可 以 在 满足 安全 需求 的 同时 获得 巨大 的 性 能 和 成 本 优势 。 














10.10 ”小 结 

现在 ， 你 可 以 对 你 的 数据 和 Presto 提供 的 数据 访问 能 力 感 到 放心 了 。 你 知道 许多 用 来 确保 
Presto 访问 与 数据 安全 的 选项 。 这 是 运行 Presto 的 一 个 关键 部 分 ， 并 且 必 须 通过 其 他 活动 
(如 监控 ) 来 加 强 ， 第 12 章 将 对 此 进行 讨论 。 























但 在 这 之 前 ， 你 需要 先 了 解 一 下 众多 使 用 Presto 的 工具 ， 它 们 的 强大 能 力 令 人 惊讶 ， 参 见 
第 11 章 。 
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第 11 章 


将 Presto 与 其 他 工具 集成 











如 第 1 章 所 述 ， 你 可 以 用 各 种 方式 使 用 Presto。 现 在 你 已 经 学 习 了 如 何 运行 Presto 集群 
使 用 JDBC 连接 ， 以 及 针对 一 个 或 多 个 catalog 编写 查询 。 





是 时 候 看 看 众多 组 织 中 Presto 的 成 功 应 用 了 。 下 面 的 章节 涵盖 了 各 种 应 用 场景 ， 代 表 运 用 
Presto 所 创造 的 各 种 可 能 性 中 的 一 小 部 分 。 


11.1 使 用 Apache Superset 进 行 查询 、 可 视 化 和 
更 多 操作 


Apache Superset 可 以 说 是 一 个 现代 的 、 企 业 级 的 商业 智能 Web 应 用 程序 ， 但 这 种 简明 扼 
要 的 描述 根本 不 能 表达 出 Superset 的 强大 。 
Superset 作为 Web 应 用 程序 运行 在 基础 设施 中 ， 因 此 业务 分 析 师 和 其 他 用 户 无 须 在 他 们 的 


工作 站 上 安装 或 管理 其 工具 。 它 支持 Presto 作为 数据 产 ， 因 此 可 以 作为 访问 Presto 和 所 有 
已 配置 的 数据 源 的 前 端 。 


























一 旦 连接 到 Superset， 用 户 就 可 以 在 功能 丰富 的 SQL 查询 编辑 器 SQL Lab 中 编写 查询 。 
SQL Lab 允许 用 户 在 多 个 选项 卡 中 编写 查询 、 浏 览 数 据 库 的 元 数据 作为 辅助 、 运 行 查询 、 
并 在 用 户 界 面 中 以 表格 形式 接收 查询 结果 ， 它 甚至 支持 长 时 间 运 行 的 查询 。 此 外 ，SQL 
Lab 还 拥有 众多 的 UI 特性 ， 可 以 帮助 你 编写 查询 ， 甚 至 将 所 需 的 工作 减少 到 只 需 单 击 一 两 
下 按钮 。 对 于 用 户 来 说 ， 单 单 是 SQL Lab 就 已 很 有 价值 并 且 功能 很 强大 了 ， 但 这 仅仅 是 受 
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益 于 Superset 的 第 一 步 。SQL Lab 可 以 让 你 顺利 过 渡 到 Superset 的 真正 功能 : 可视化 数据 。 


Superset 所 支持 的 可 视 化 功能 非常 丰富 ， 你 可 以 通过 查看 可 视 化 图 库 (参见 Apache 
Superset 网 站 ) 来 感受 一 下 。 你 可 以 创建 所 有 典型 的 可 视 化 图 形 ， 包 括 数据 点 图 、 线 图 、 
条 形 图 或 饼 图 等 。 然 而 ，Superset 的 功能 更 加 强大 ， 支 持 3D 可 视 化 、 基 于 地 图 的 数据 分 
析 等 。 


一 旦 创建 了 必要 的 查询 和 可 视 化 ， 你 就 可 以 将 其 组 成 一 个 仪表 板 ， 并 与 组 织 内 的 其 他 成 员 


分 享 。 这 让 商业 分 析 师 和 其 他 专家 能 够 创建 有 用 的 数据 聚合 和 可 视 化 ， 并 方便 地 将 其 暴露 
给 其 他 用 户 。 






























































在 Superset 中 使 用 Presto 很 简单 。 在 这 两 个 系统 都 启动 并 运行 后 ， 你 只 需要 在 Superset 中 
将 Presto 配置 成 一 个 数据 库 即 可 。 


将 Presto 和 Superset 连接 起 来 之 后 ， 建 议 把 它 慢 慢 地 暴露 给 用 户 。Superset 的 简单 性 让 用 
户 可 以 创建 出 强大 但 计算 量 超大 并 涉及 大 量 数 据 集 的 查询 ， 这 对 Presto 集群 的 规模 和 配置 
有 重大 影响 。 在 用 户 和 使 用 场景 方面 逐步 扩展 使 用 量 ， 可 以 让 你 随时 跟踪 集群 的 利用 率 ， 
并 确保 你 可 以 根据 新 需求 来 扩展 集群 。 


11.2 ”使 用 RubiX 提 高 性 能 


当 你 扩展 Presto 以 访问 大 型 分 布 式 存储 系统 并 将 其 暴露 给 许多 用 户 和 工具 时 ， 对 基础 设施 
的 要 求 就 会 大 大 提高 。 计 算 性 能 需求 可 以 通过 扩展 Presto 集群 本 身 来 处 理 ， 被 查询 的 数据 
源 也 可 以 进行 调整 ， 但 即使 引入 和 适 配 了 这 些 优化 ， 也 会 给 你 留 下 一 个 缺口 一 一 Presto 和 
数据 之 间 的 连接 。 


来 自 Qubole 的 轻 量 级 数据 缓存 框架 RubiX 作为 缓存 层 ， 可 以 放 在 Presto 计算 资源 和 数据 
源 之 间 。 它 支持 磁盘 缓存 和 内 存 缓存 。 在 查询 分 布 式 存储 系统 时 ， 因 为 避免 了 数据 传输 和 
对 底层 数据 源 的 重复 查询 ， 所 以 使 用 这 个 开源 平台 可 以 提升 性 能 并 降低 成 本 。 















































RubiX 引入 了 一 个 新 的 协议 rubix://， 用 于 指向 Hive Metastore 中 表 的 位 置 。 因 此 ， 它 是 
Hive 连接 器 的 透明 的 增强 ， 从 Presto 用 户 的 角度 来 看 并 没有 什么 变化 。 元 信息 以 及 实际 数 
据 都 缓存 在 RubiX 中 。RubiX 存储 是 分 布 式 的 ， 可 以 与 Presto 集群 部 署 在 相同 节点 上 ， 以 
获得 最 大 的 性 能 提升 。 


将 RubiX 和 Presto 一 起 使 用 是 个 既定 做 法 ， 因 为 在 查询 分 布 式 对 象 存 储 时 ， 二 者 的 优势 非 
常 互补 。 














204 | 第 11 章 


11.3 ”使 用 Apache Airflow 的 工作 流 

Apache Airflow 是 一 个 广泛 使 用 的 系统 ， 用 于 以 编程 方式 编写 、 调 度 和 监控 工作 流 。 它 专 
注 于 数据 流水 线 处 理 ， 在 数据 科学 界 得 到 了 广泛 的 应 用 。 它 用 Python 实现 ， 能 够 编排 并 执 
行 用 Python 编写 的 复杂 工作 流 ， 并 且 能 够 调用 众多 支持 的 系统 ， 还 可 以 执行 shell 脚本 。 








为 了 将 Presto 与 Airflow 集成 起 来 ， 你 可 以 利用 Airflow 中 的 Presto 钧 子 (hook)， 或 在 命 
令 行 中 运行 Presto CLI。Airflow 支持 Presto 之 外 的 许多 数据 源 ， 因 此 你 既 可 以 在 Presto 之 
外 准备 数据 ， 之 后 通过 Presto 来 消费 数据 ， 又 可 以 通过 Presto 来 访问 和 处 理 数 据 ， 以 利用 
其 高 性 能 、 可 扩展 性 和 集成 众多 数据 源 的 特性 。 








整合 Airflow 和 Presto 的 目标 通常 是 对 源 数 据 进行 处 理 ， 最 终 得 到 一 个 高 质量 的 数据 集 ， 
可 以 为 应 用 程序 和 机 器 学 习 模 型 所 用 。 一 旦 由 Airflow 编排 并 由 Presto 或 其 他 集成 的 组 件 
执行 的 工作 流程 产生 了 所 需 的 数据 集 ， 就 可 以 用 Presto 来 访问 这 些 数 据 ， 并 通过 报告 和 仪 
表 板 向 用 户 展示 这 些 数据 ， 这 部 分 可 以 使 用 Apache Superset， 参 见 11.1 节 。 











11.4 瞬 入 式 Presto 示 例 : Amazon Athena 


Amazon Athena 是 一 个 查询 服务 ， 可 用 于 直接 对 存储 在 Amazon S3 中 的 任何 大 小 的 数据 
文件 执行 SQL 查询 。Athena 是 一 个 很 好 的 应 用 程序 例子 ， 它 将 Presto 作为 查询 引擎 封装 起 
来 ， 从 而 提供 强大 的 功能 和 特性 。Athena 以 服务 的 形式 提供 给 用 户 ， 本 质 上 是 使 用 Presto 
和 Hive 连接 器 来 查询 S3。 与 存储 一 起 使 用 的 Hive Metastore 是 另 一 个 服务 ，AWS Glue。 


























图 11-1 展示 了 Amazon Athena 的 总 体 架 构 。 客 户 端 通过 Athena Presto REST API 访问 
Athena。 通 过 使 用 Glue Data Catalog (保存 S3 上 数据 的 源 数据 ) 与 在 Athena 上 部 署 的 
Presto 进行 交互 ， 由 Presto 执行 查询 。 








Amazon Glue 
Data Catalog 


Amazon 
Simple Storage 
Service (53) 














图 11-1: Amazon Athena 架构 概览 


Athena 是 一 种 无 服务 器 架构 ， 这 意味 着 你 既 无 须 管理 任何 基础 设施 [如 Amazon Elastic 
Compute Cloud (EC2) 实例 ]， 也 无 须 管理 、 安 装 或 升级 任何 数据 库 软 件 来 处 理 SQL 语句 。 
Athena 为 你 解决 了 这 一 切 。 无 须 花 费时 间 部 署 ，Athena 可 以 立即 为 你 提供 提交 SQL 查询 的 
端点 。 无 服务 器 是 Athena 的 一 个 关键 设计 ， 这 种 架构 天 生 具 备 高 可 用 性 和 容错 性 优势 。 亚 



































将 Presto 与 其 他 工具 集成 | 205 





马 逊 为 其 持续 运行 和 可 用 性 提供 了 保证 ， 同 时 还 提供 了 对 故障 和 数据 丢失 的 容错 性 。 








因为 Athena 是 无 服务 器 的 ， 所 以 它 使 用 的 定价 模式 与 你 自己 管理 基础 设施 不 同 。 例 如 ， 当 
在 EC2 上 运行 Presto 时 ， 无 论 你 使 用 Presto 的 量 如 何 ， 你 都 要 按 小 时 为 EC2 实例 付费 ， 
而 使 用 Athena， 你 只 需 按 每 次 查询 从 S3 读 取 的 数据 量 来 支付 相应 费用 。 


Amazon 提供 了 多 种 客户 端 与 Athena 交互 ， 并 向 Athena ( 即 Presto) 提交 查询 。 你 可 以 
使 用 AWS 命令 行 界面 、REST API、AWS Web 控制 台 或 在 应 用 程序 中 使 用 JDBC 驱动 、 
ODBC 驱动 或 Athena SDK。 

















尽管 有 如 上 诸多 优点 ， 但 我 们 仍 要 明白 ， 从 用 户 的 角度 来 看 ，Athena 并 不 是 Presto 托管 
部 署 。 以 下 是 其 区 别 于 Presto 部 署 的 几 个 重要 方面 。 





它 并 不 能 使 用 AWS 内 部 或 者 外 部 其 他 的 数据 源 。 
你 无 法 访问 Presto Web UI 来 了 解 查 询 详情 和 其 他 相关 信息 。 
你 无 法 控制 Presto 本 身 ， 包 括 版 本 、 配 置 或 基础 设施 。 














下 面 来 看 一 个 使 用 Athena 访问 昔 尾 花 数 据 集 (参见 1.4.7 节 ) 的 简单 例子 : 创建 好 数据 库 
和 表 ， 并 将 数据 导入 Athena 后 ， 你 就 可 以 开始 使 用 了 。 


可 以 通过 使 用 AWS CLI 的 Athena 命令 start-query-execution 来 运行 Athena 查询 。 你 需 
要 使 用 以 下 两 个 参数 。 


--query-string 


这 是 你 要 在 Athena 中 执行 的 查询 。 


--Cli-input-json 
这 是 一 个 JSON 结构 体 ， 它 为 Athena 提供 了 额外 的 上 下 文 。 在 本 例 中 ， 我 们 在 Glue 
Data Catalog 中 指定 了 存 有 iris 表 的 数据 库 ， 并 指定 了 查询 结果 保存 的 位 置 。 





所 有 在 Athena 中 运行 的 查询 都 会 将 结果 写 入 S3 中 的 某 个 位 置 。 你 可 以 在 
AWS Web Console 中 进行 配置 ， 也 可 用 Athena 的 客户 端 工具 来 指定 。 























下 面 使 用 这 个 存储 在 athena-input.json 中 的 JSON 结构 体 来 运行 查询 : 
"QueryExecutionContext": { 
"Database": "iris" 
}, 
"ResultConfiguration": { 
"OutputLocation": "s3://presto-book-examples/results/" 
} 
} 
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用 AWS CLI 运行 Athena 查询 : 


$ aws athena start-query-execution \ 

--Cli-input-json file://athena-input.json \ 

--query-string 'SELECT species, AVG(petal_length_cm), MAX(petal_length_cm), \ 
MIN(petal_length_cm) FROM iris GROUP BY species' 


{ 
} 


"QueryExecutionId": "7e2a9640-04aa-4ae4-8e88-bd6fe4d9c289" 


因为 Athena 是 异步 执行 查询 ， 所 以 调用 start-query-execution 会 返回 一 个 查询 执行 ID。 
它 可 用 于 获取 查询 执行 的 状态 ， 或 者 在 查询 完成 后 获取 结果 ， 结 果 将 以 CSV 格式 存储 
在 S3 中 : 








$ aws athena get-query-execution \ 
--query-execution-id 7e2a9640-04aa-4ae4-8e88-bd6fe4d9c289 


{ 
"QueryExecution": { 
"ResultConfiguration": { 
"OutputLocation": 
"s3://...7e2a9640-04aa-4ae4-8e88-bd6fe4d9c289.csv" 
]， 
} 


$ aws s3 cp --quiet 
s3://.../7e2a9640-04aa-4ae4-8e88-bd6fe4d9c289.csv 
/dev/stdout 


"species","_col1","_col2","_col3" 
"virginica","5.552","6.9","4.5" 
"versicolor","4:26","5.1";"3:0" 
"setosa","1.464","1.9","1.0" 


你 也 可 以 使 用 aws athena get-query-results 命令 以 JSON 结构 的 格式 获取 结果 。 另 一 个 
选择 是 开源 的 AthenaCLI。 














停 下 来 想 想 这 件 事 : 在 没有 任何 基础 设施 需要 管理 的 情况 下 ， 你 只 需要 用 一 个 命令 行 界面 
就 可 以 在 S3 中 存储 的 数据 文件 上 运行 SQL 查询 。 如 果 没 有 Athena 和 Glue， 你 必须 部 署 
和 管理 基础 设施 和 软件 来 对 数据 执行 SQL 查询 。 














而 如 果 没 有 Presto， 你 必须 以 某 种 方式 采集 并 格式 化 数据 ， 然 后 写 人 数据 库 中 ， 之 后 才 可 
以 进行 SQL 处 理 。 























Athena 和 Glue 的 结合 是 一 种 令 人 难以 置信 的 强大 工具 ， 而 Presto 使 你 可 以 使 用 标准 SQL 
对 S3 上 的 数据 进行 操作 。 








将 Presto 与 其 他 工具 集成 | 207 





这 个 简单 的 介绍 并 不 能 使 你 全 面 了 解 Athena， 但 可 以 让 你 了 解 到 Presto 在 行业 内 的 应 用 情 
况 ， 以 及 Presto 与 其 他 产品 的 区 别 。 




















使 用 Athena 可 以 满足 不 同 的 需求 ,但 有 一 些 特定 的 限制 和 特性 。 例 如 ，Athena 对 较 大 的 、 
运行 时 间 较 长 的 查询 施加 了 限制 。 

















因为 你 是 为 处 理 后 的 数据 量 而 不 是 运行 软件 的 基础 设施 付费 ， 所 以 成 本 计算 也 有 很 大 不 同 。 
每 次 运行 查询 时 ， 你 都 要 为 处 理 的 数据 付费 。 根 据 你 的 使 用 模式 ， 这 可 能 更 便宜 ， 也 可 能 
更 贵 。 有 具体 来 说 ， 为 了 降低 查询 成 本 ， 你 可 以 在 S3 中 预 处 理 数据 ， 从 而 使 用 Parquet 和 
ORC 等 格式 并 进行 压缩 。 当 然 ， 预 处 理 也 是 有 代价 的 ， 因 此 你 必须 去 尝试 优化 整体 成 本 。 


许多 其 他 平台 以 类 似 的 、 隐 项 的 方式 使 用 Presto， 从 而 为 用 户 和 这 些 平台 的 提供 者 提供 了 
强大 的 能 力 。 如 果 你 追求 管控 力 和 灵活 性 ， 运 行 自己 部 署 的 Presto 仍 是 一 个 很 棒 的 选择 。 























11.5 Starburst 企 业 版 Presto 


Starburst 是 Presto 开源 项 目 背 后 的 商业 公司 ， 也 是 Presto 项 目 和 Presto 软件 基金 会 的 主 
要 赞助 商 。Starburst 的 创始 团队 成 员 是 来 自 Teradata 公司 的 Presto 早期 贡献 者 ， 他 们 创办 
Starburst 是 为 了 专注 于 延续 Presto 在 企业 中 的 成 功 。Facebook 的 Presto 开源 项 目 创始 人 在 
2019 年 加 入 Starburst，Starburst 已 成 为 Presto 项 目 最 大 的 贡献 者 和 代码 提交 者 之 一 。 


Starburst 为 增强 版 的 Presto 提供 商业 支持 ， 并 为 其 提供 了 更 多 的 企业 级 功能 ， 比 如 更 多 的 
连接 器 、 更 好 的 性 能 和 其 他 现 有 连接 器 的 改进 ， 以 及 用 于 集群 和 catalog 管理 的 控制 台 和 增 
强 的 安全 功能 。 


















































Starburst 企业 版 Presto 支持 在 任何 地 方 部 署 Presto: 物理 服务 器 、 虚 拟 机 和 Kubernetes 上 的 
容器 等 。 你 可 以 在 所 有 主要 的 云 供应 商 、 云 平台 、 企 业内 部 和 混合 云 基础 设施 上 运行 Presto。 


11.6 ”其 他 集成 案例 


目前 ， 你 只 看 到 了 一 小 部 分 能 够 使 用 或 集成 Presto 的 工具 和 平台 ， 但 仅 是 能 与 Presto 一 起 
使 用 的 商业 智能 和 报告 工具 就 非常 多 了 ， 至 少 包括 以 下 这 些 : 


。 Apache Superset 

。 DBeaver 

。 HeidiSQL 

。 Hue 

。 Information Builders 
。 Jupyter Notebook 


。 Looker 
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。 MicroStrategy 
。 Microsoft Power BI 


。 Mode 
。 Redash 


SAP Business Objects 
SQuirreL SQL Client 


。 Tableau 
。 Toad 


使 用 或 支持 Presto 的 数据 平台 、 托 管 平台 和 其 他 系统 包括 : 


。 AWS 和 Amazon Elastic Kubernetes Service 
。 Amazon EMR 


。 Google Kubernetes Engine 


。 Microsoft Azure Kubernetes Service 
。 Microsoft Azure HDInsight 


。 Qlik 
。 Qubole 


。 Red Hat OpenShift 














其 中 许多 用 户 或 供应 商 (比如 Qubole) 在 项 目 中 做 出 了 贡献 。 


11.7 自 定 义 集成 


Presto 是 一 个 开 








放 的 平台 ， 你 可 以 在 它 上 面 


淆 


合 自己 的 工具 。 围 绕 Presto 的 开源 社区 正在 











积极 构建 和 改进 这 些 集成 。 


你 可 以 使 用 Pre 


sto CLI 或 Presto JDBC 驱动 进行 简单 的 集成 ， 更 高 级 的 集成 是 使 用 Presto 








协调 器 暴露 的 基于 HTTP 的 协议 来 执行 查询 。JDBC 驱动 只 是 简单 地 封装 了 这 个 协议 ， 你 
可 以 在 Presto 网 站 上 找到 包括 R 和 了 Python 等 其 他 平台 的 封装 。 


还 有 许多 组 织 更 进一步 ， 它 们 为 Presto 实现 了 新 的 插件 。 这 些 插件 可 以 增加 一 些 功能 ， 如 
连接 到 其 他 数据 产 的 连接 器 、 事 件 监听 器 、 访 问 控 制 、 自 定义 类 型 和 用 户 自 定义 函 数 等 ， 
可 用 于 查询 语句 。Presto 文档 中 包含 了 一 个 非常 有 用 的 开发 者 指南 ， 它 可 以 作为 你 的 首选 
参考 资源 。 最 后 别 忘 了 向 社区 寻求 帮助 以 及 给 予 反 馈 ， 参 见 1.4.3 市 。 


11.8 ”小 结 


Presto 的 应 用 是 如 此 广泛 ， 你 可 以 将 许多 工具 与 Presto 集成 来 创建 一 些 非常 强大 的 解决 方 
案 ， 这 着 实 令 人 惊叹 。 在 本 章 中 ， 我 们 仅仅 了 解 了 冰山 一 角 。 
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多 亏 了 JDBC 驱动 、ODBC 驱动 、Presto CLI 以 及 建立 在 这 些 工 具 和 其 他 扩展 之 上 的 集成 ， 
许多 工具 可 以 与 Presto 一 起 使 用 。 








无 论 你 喜欢 使 用 哪 种 商业 或 开源 的 商业 智能 报告 工具 或 数据 分 析 平 台 ， 请 务必 确认 它们 
是 否 支持 或 可 以 集成 Presto。 同 样 ， 你 也 不 妨 去 了 解 一 下 Presto 是 否 用 于 你 的 工具 链 底 层 
中 ， 这 可 以 让 你 更 好 地 了 解 如 何 改进 或 扩展 你 的 使 用 方式 ， 甚 至 让 你 去 思考 是 否 可 以 直接 
使 用 Presto。 








根据 Presto 部 署 的 所 有 权 级 别 ， 你 可 以 根据 需要 进行 定制 、 更 新 和 扩展 ， 或 者 作为 集成 
的 一 部 分 ， 你 也 可 以 让 供应 商 管理 Presto。 找 到 属于 你 自己 的 理想 选择 ， 然 后 尽情 享受 
Presto 吧 。 如 果 你 打算 自己 部 署 管理 Presto， 可 以 在 第 12 章 中 了 解 到 更 多 信息 。 
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第 12 章 


生产 环境 中 的 Presto 





在 学 习 Presto 的 过 程 中 ， 第 2 章 介 绍 了 探索 性 安装 Presto 的 简单 方法 ， 第 5 章 介 绍 了 
Presto 的 部 署 ， 而 这 一 章 将 更 进一步 地 深入 细节 。 毕 竞 ， 仅 仅 安装 和 配置 集群 与 维持 其 长 
时 间 运 行 非常 不 同 ， 后 者 具有 不 同 的 用 户 、 不 断 变化 的 数据 源 和 完全 独立 的 用 法 。 


因此 ， 这 一 章 将 进一步 探索 Presto 集群 操作 者 必 备 的 其 他 方面 的 知识 。 























12.1 使 用 Presto Web Ul 监控 


如 3.5 节 所 述 ， 你 可 以 在 每 个 Presto 集群 的 协调 器 上 访问 到 其 Web UI， 它 可 以 用 来 检查 和 
监控 Presto 集群 及 其 处 理 的 查询 。Web UI 所 提供 的 细节 信息 可 用 于 帮 你 更 好 地 理解 和 调 优 
Presto 的 整体 系统 以 及 单个 查询 。 




















Presto 的 Web UI 暴露 的 信息 来 自 Presto 的 系统 表 ， 在 8.2 节 中 有 详细 介绍 。 

















当 你 第 一 次 访问 Presto Web UI 所 在 地 址 时 ， 可 以 看 到 如 图 12-1 所 示 的 主 仪表 盘 ， 其 上 方 
显示 Presto 集群 的 信息 ， 下 方 显示 查询 列表 。 
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“i CLUSTER OVE 


RUNNING QUERIES 


0 


QUEUED QUERIES 


0 


BLOCKED QUERIES 


0 


QUERY DETAILS 





RVIEW 312 PRESTO 2.54m 


ACTIVE WORKERS ROWS/SEC 


4 0.00 


RUNNABLE DRIVERS BYTES/SEC 


0.00 0 


RESERVED MEMORY (B) WORKER PARALLELISM 


0 0.00 
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12.1.1 集群 

















UI 的 主 仪表 盘 


级 的 细节 


























下 面 先 来 讨论 Presto 集群 的 信息 。 

运行 中 的 查询 
Presto 集群 中 当前 正在 运行 的 查询 总 数 。 所 有 用 户 的 查询 都 会 计 入 ， 例 如 ，Alice 运行 
着 2 个 查询 且 Bob 运行 着 5 个 查询 ， 则 在 对 应 方 框 里 显示 的 总 数 是 7。 

队列 中 的 查询 
Presto 集群 中 所 有 用 户 在 队列 中 等 待 的 查询 总 数 。 基 于 资源 组 的 配置 ， 协 调 器 调度 在 队 
列 中 等 待 的 查询 。 

阻塞 的 查询 
集群 中 阻塞 的 查询 总 数 。 由 于 缺少 必要 的 切片 或 其 他 资源 ， 阻 塞 的 查询 无 法 继续 执行 。 
在 接 下 来 的 章节 里 ， 你 会 了 解 更 多 有 关 查 询 状 态 的 知识 。 

活动 的 工作 节点 
集群 中 活动 的 工作 节点 的 数量 。 通 过 手动 或 自动 扩展 添加 或 删除 任何 工作 节点 时 ， 这 些 
节点 都 会 注册 到 发 现 服务 上 ， 因 此 显示 的 数字 会 据 此 更 新 。 

可 运行 的 驱动 





集群 中 可 运行 的 





区 动 的 平均 数 ， 如 第 4 章 所 述 。 
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保留 内 存 
Presto 中 所 有 保留 内 存 的 量 ， 以 字 节 为 单位 。 


行 每 秒 
集群 上 运行 着 的 所 有 查询 每 秒 处 理 的 总 行 数 。 


字 节 每 秒 
集群 上 运行 着 的 所 有 查询 每 秒 处 理 的 总 数据 量 ， 以 字 节 为 单位 。 











工作 节点 并 行 度 
工作 节点 的 并 行 度 总 量 ， 也 就 是 集群 中 所 有 查询 运行 时 在 所 有 工作 节点 上 花费 的 线程 
CPU 时 间 总 量 。 





12.1.2 ”查询 列表 
Presto Web UI 仪表 盘 的 下 方 是 最 近 执 行 的 查询 列表 ， 示 例 截 图 如 图 12-2 所 示 。 在 历史 列 
表 中 展示 的 查询 数量 由 Presto 集群 的 配置 决定 。 








QUERY DETAILS 


259.00ms 
224K 
FINISHED 














图 12-2: Presto Web UI 中 的 查询 列表 


在 列表 上 方 ， 有 一 系列 控件 可 用 于 设置 列 出 查询 的 过 滤 条 件 。 这 可 以 让 你 在 集群 非常 繁 
忙 ， 运 行 着 几 十 上 百 条 查询 时 ， 也 能 定位 到 茶 一 特定 的 查询 。 


文本 输入 框 可 以 让 你 通过 键入 要 使 用 的 标准 文本 查找 特定 的 查询 。 可 以 搜索 的 内 容 包 括 查 
询 发 起 者 的 用 户 名 、 查 询 数据 源 、 查 询 ID 和 资源 组 等 ， 甚 至 还 包括 查询 的 SQL 语句 文本 
和 查询 状态 。 文 本 输入 框 旁 边 的 状态 过 滤器 允许 你 根据 查询 的 状态 (执行 中 、 队 列 中 、 已 
完成 和 失败 等 ) 过 滤 查 询 列 表 。 对 于 失败 的 查询 ， 还 可 以 使 用 失败 原因 (内 部 错误 、 外 部 
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错误 、 资 源 错误 或 用 户 错误 ) 进行 过 滤 。 





左边 的 控件 允许 你 设 定 查 询 显 示 的 顺序 、 当 数据 改变 时 重 排序 的 时 机 和 显示 查询 的 最 大 数量 。 








在 查询 管理 控件 下 方 的 每 一 行 都 代表 一 个 查询 。 左 边 的 列 显示 查询 的 信息 ， 右 边 的 列 显示 
查询 的 SQL 文本 和 执行 状态 。 查 询 信息 概要 的 例子 如 图 12-3 所 示 。 





presto-cli 


global 
25 
7.95m 
0B 














12-3: Presto Web UI 中 某 一 查询 的 信息 


让 我 们 更 仔细 地 查看 查询 信息 的 细节 ， 每 个 查询 执行 时 都 拥有 同样 的 查询 信息 。 在 左上 方 
的 文字 就 是 查询 ID ， 在 本 例 中 ,查询 ID 的 值 是 20190803_224130_00010_iukvw。 更 进一步 ， 
你 可 以 发 现 YYYYMMDD_HHMMSS 格式 的 日 期 和 时 间 (协调 世界 时 ，UTC) 组 成 了 ID 
的 前 半 部 分 ，ID 的 后 半 部 分 是 查询 的 一 个 递增 的 计数 器 ， 计 数 器 值 09919 仅仅 代表 着 ， 这 
是 自 协调 器 启动 以 来 第 10 个 运行 的 查询 ，ID 的 最 后 一 部 分 (iukvw) 是 协调 器 的 随机 标识 
符 。 随 机 标识 符 和 计数 器 值 在 协调 器 重启 时 都 会 重 置 。 右 上 方 的 显示 的 时 间 是 查询 运行 时 
的 本 地 时 间 。 


例子 中 接 下 来 的 三 个 值 (ec2-user、presto-cli 和 global) 代表 着 运行 此 查询 的 终端 用 户 、 
查询 来 源 和 用 户 组 。 本 例 中 ， 用 户 名 是 默认 的 ec2-user， 查 询 来 源 是 presto-cli。 如 果 你 
在 运行 Presto CLI 时 指定 了 - -user 参数 ， 这 里 显示 的 将 是 你 指定 的 用 户 名 。 查 询 来 源 也 可 
以 不 是 presto-cli， 例 如 ， 当 你 使 用 JDBC 驱动 连接 到 Presto 时 ， 它 会 显示 presto-jdbc。 
使 用 Presto CLI 的 --source 参数 或 DBC 连接 的 字符 串 属 性 ， 你 也 可 以 将 查询 来 源 设 定 成 
任何 你 想 要 的 值 。 


下 方 值 的 阵列 在 Presto Web UI 中 并 未 详细 标注 ， 但 是 它们 包含 了 有 关 查 询 的 一 些 重要 信 
息 。 表 12-1 解释 了 这 些 值 的 含义 。 


表 12-1: 用 于 特定 查询 的 值 阵 列 
























































已 完成 切片 数 : 查询 已 完成 的 切 | 运行 中 切片 数 : 运行 中 的 查询 切 | 队列 中 切片 数 : 查询 执行 时 在 队列 
片 数 。 例 子 中 显示 25 个 切片 已 | 片 数 。 查 询 完成 后 ， 该 值 是 0， 但 | 中 的 切片 数量 。 查 询 完 成 后 这 个 值 
经 执行 完成 。 在 查询 开始 时 ， 这 | 在 查询 执行 时 ， 该 值 随 着 切片 开 | 是 0， 但 在 查询 执行 时 ， 这 个 值 随 
个 值 是 0， 随 着 查询 的 执行 和 切 | 始 运行 和 完成 而 动态 变化 着 切片 在 队列 和 执行 状态 之 间 切 换 
片 的 完成 ， 该 值 会 不 断 上 升 而 动态 变化 
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挂钟 时 间 : 执行 查询 已 花费 的 总 
时 间 。 这 个 值 在 你 分 页 查看 结果 


总 挂钟 时 间 : 这 个 值 与 挂钟 时 间 
类 似 ， 但 包含 了 队列 上 时间。 挂钟 





( 续 ) 


CPU 时 间 : 处 理 查 询 所 花费 的 总 
CPU 时 间 。 这 个 值 通常 比 挂钟 时 间 








大 ， 因 为 并 行 的 工作 节点 及 其 线程 
的 时 间 都 独立 统计 并 累加 起 来 。 例 
如 ，4 个 CPU 花费 1 秒 执行 1 个 查 
询 ， 则 总 CPU 时 间 是 4 秒 

累计 用 户 内 存 : 在 整个 查询 执行 过 
程 中 使 用 的 累计 用 户 内 存量 。 这 不 
意味 着 这 些 内 存在 某 一 时 刻 同 时 被 
使 用 。 这 个 值 是 内 存 的 累计 使 用 量 


时 间 本 身 不 包含 查询 在 队列 中 等 
待 的 时 间 。 总 挂钟 时 间 是 你 从 提 
交 查 询 到 接收 完结 果 所 观察 到 的 
总 时 间 

峰值 总 内 存 : 在 查询 执行 过 程 中 
所 使 用 的 峰值 总 内 存量 。 查 询 执 
行 中 的 特定 操作 可 能 需要 很 多 内 
存 ， 因 此 了 解 峰值 内 存 非常 有 用 








时 也 会 增长 























当前 总 保留 内 存 : 当前 查询 执行 
所 使 用 的 总 保留 内 存 的 量 。 对 于 
已 完成 的 查询 ， 这 个 值 为 0 



























































Presto Web UI 上 的 许多 图 标 和 值 在 鼠标 悬 停 时 会 显示 弹出 工具 提示 。 当 你 不 
确定 茶 一 特定 值 的 含义 时 ， 这 一 功能 十 分 有 用 。 


接 下 来 你 需要 学 习 的 是 查询 处 理 的 不 同 状态 ， 这 些 状 态 显 示 在 查询 文本 上 方 。 最 常见 的 查 
询 状 态 包括 RUNNING (执行 中 )、FINISHED (已 完成 )、USER CANCELLED (用 户 取 消 ) 或 USER 


ERROR (用 户 错误 ) 等 。RUNNING 和 FINISHED 状态 的 含义 无 须 多 言 ， USER CANCELLED 表示 用 


户 终止 了 查询 ， 而 USER ERROR 表示 用 户 提交 的 SQL 查询 包含 语法 错误 或 语义 错误 。 
a 


当 查 询 在 执行 过 程 中 因 等 待 要 处 理 的 资源 或 额外 的 切片 等 原因 阻塞 时 ， 查 询 会 进入 
BLOCKED (阻塞 ) 状态 。 观 察 到 一 个 查询 进入 或 离开 此 状态 十 分 正常 。 然 而 ， 如 果 一 个 查询 
一 直 卡 在 阻塞 状态 ， 可 能 的 原因 有 很 多 ， 并 且 可 能 表明 查询 或 Presto 集群 内 部 存在 问题 。 
如 有 果 你 发 现 查 询 卡 在 阻塞 状态 ， 请 先 检查 系统 的 内 存 使 用 情况 和 配置 。 原 因 可 能 是 ， 此 查 
询 需 要 的 内 存 非 同 寻常 地 高 ， 或 者 在 计算 上 代价 非常 大 。 此 外 ， 如 果 客 户 端 没 有 获取 结果 
或 不 能 以 足够 的 速度 读 取 结 果 ， 反 向 压力 也 会 将 查询 置 于 BLOCKED 状态 。 
























































当 查 询 开 始 或 停止 处 理 ， 并 由 资源 组 定义 的 规则 置 于 等 待 阶段 时 ，QUEUED (队列 中 ) 状态 
就 会 发 生 。 查 询 此 时 仅仅 是 在 等 待 执行 。 


你 也 可 能 见 到 PLANNING (规划 中 ) 状态 下 的 查询 。 这 通常 发 生 在 需要 很 多 优化 工作 的 大 而 
复杂 的 查询 上 。 如 果 你 经 常 看 到 此 状态 ， 且 查询 优化 似乎 占据 了 可 观 的 查询 执行 时 间 ， 你 
应 该 调查 可 能 的 原因 ， 如 协调 器 内 存 不 足 或 处 理 能 力 不 足 等 。 



































12.1.3 查询 细节 视图 

目前 ， 你 已 经 看 到 了 有 关 Presto 集群 的 总 体 信息 和 查询 的 概述 信息 。Web UI 还 提供 了 针对 
每 个 查询 更 深入 的 细节 信息 。 在 图 12-3 中 所 示 的 界面 上 单 击 特定 查询 的 名 称 即 可 查看 查询 
细节 (Query Details) 视图 。 





























生产 环境 中 的 Presto | 215 


查询 细节 视图 包含 大 量 关 于 该 查询 的 信息 ， 让 我 们 仔细 探索 其 中 的 内 容 。 





























查询 细节 视图 通常 提供 给 Presto 开发 者 和 深度 用 户 使 用 ， 这 个 层级 的 复杂 度 
需要 你 非常 熟悉 Presto 代码 及 其 内 部 构造 。 检 查 这 个 视图 对 普通 用 户 仍 是 有 
用 的 ， 随 着 时 间 的 推移 ， 你 可 以 从 中 学 到 很 多 专业 知识 。 























查询 细节 视图 使 用 多 个 标签 页 展示 Presto 查询 不 同方 面 的 细 市 信息 。 在 标签 页 之 外 ， 查 询 
ID 和 状态 一 直 可 见 ， 图 12-4 展示 了 此 视图 头 部 的 示例 。 






































“2 QUERY DETAILS 


20190804_003933_00009_dagzts 
FINISHED 





312 PRESTO 


Overview Live Plan Stage Performance Splits JSON 











图 12-4: 查询 细节 视图 的 头 部 和 标签 页 部 分 


个 概览 
概览 页 包含 了 查询 列表 中 查询 细节 区 域 显示 的 信息 ， 


。 会 话 (Session ) 

。 执行 (Execution ) 

。 资源 利用 概览 (Resource Utilizations Summary ) 
。 时 间 线 (Timeline ) 

。 查询 (Query) 

。 准备 查询 (Prepare Query) 

。 Stages 

。 任务 (Tasks) 














并 提供 了 更 多 其 他 方面 的 信息 : 

















如 图 12-5 所 示 ， 在 Stages 区 域 展示 了 查询 Stage 的 信息 。 














Auto-Refresh: On 


SCHEDULED TIME SKEW CPU TIME SKEW 


SCHEDULED TIME SKEW CPU TIME SKEW 





12-5: 查询 细节 页 面 概览 标签 页 中 的 Stages 区 域 
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上 述 例子 展示 的 查询 语句 是 SELECT count(*) FROM lineitem。 这 是 一 个 简单 的 查询 ， 它 只 
包括 两 个 Stage: Stage 0 是 一 个 单 任务 的 Stage， 它 运行 在 协调 器 上 ， 人 负责 将 Stage 1 中 的 
结果 合并 起 来 ， 并 完成 最 终 的 聚合 ，Stage 1 是 一 个 将 任务 运行 在 各 个 工作 节点 上 的 分 布 式 
Stage， 负 责 读 取 数 据 并 计算 局 部 聚合 。 

下 述 列表 解释 了 Stages 区 域 中 每 个 Stage 上 显示 的 数值 的 含义 。 


TIME—SCHEDULED 
在 此 Stage 的 所 有 任务 完成 前 ， 它 处 于 调度 中 状态 的 总 时 间 。 











TIME 一 BLOCKED 
此 Stage 因 等 待 数据 而 被 阻塞 的 总 时 间 。 





TIME 一 CPU 
此 Stage 中 任务 花费 的 总 CPU 时 间 。 





MEMORY 一 CUMULATIVE 
运行 此 Stage 所 花费 的 累计 内 存 总 量 。 这 个 值 并 不 意味 着 某 一 时 刻 Stage 使 用 了 这 么 多 
的 内 存 ， 它 表示 的 是 在 处 理 过 程 中 使 用 到 的 内 存 的 累加 量 。 








MEMORY 一 CURRENT 
此 Stage 当前 使 用 的 总 保留 内 存量 。 对 于 已 完成 的 查询 ， 这 个 值 显示 为 0。 


MEMORY 一 BUFFERS 
当前 等 待 处 理 的 数据 占用 的 内 存量 。 





MEMORY 一 PEAK 
执行 此 Stage 使 用 到 的 峰值 总 内 存量 。 查 询 执行 过 程 中 的 某 些 操作 可 能 需要 很 多 内 存 ， 
因此 了 解 峰值 内 存 使 用 量 非常 有 用 。 





TASKS 一 PENDING 
此 Stage 中 处 于 等 待 状态 的 任务 数量 。 查 询 结束 后 ， 这 个 值 总 是 显示 为 0。 





TASKS 一 RUNNING 
此 Stage 正在 执行 的 任务 数量 。 查 询 结束 后 ， 这 个 值 总 是 显示 为 0。 在 查询 执行 时 ， 这 
个 值 根据 任务 开始 和 完成 的 情况 动态 更 新 。 


TASKS 一 BLOCKED 
此 Stage 中 处 于 阻塞 状态 的 任务 数量 。 查 询 结束 后 ， 这 个 值 总 是 显示 为 0。 在 查询 执行 
时 ， 这 个 值 根据 任务 在 阻塞 和 执行 状态 之 间 的 切换 情况 动态 更 新 。 























TASKS 一 TOTAL 
查询 完成 的 总 任务 数量 。 
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SCHEDULED TIME SKEW、CPU TIME SKEW、TASK SCHEDULED TIME 和 TASK 


CPU TIME 


这 些 直方 图 显示 了 调度 时 间 、CPU 时 间 、 任 务 调度 时 间 和 多 工作 节点 多 任务 的 CPU 时 
间 等 指标 的 分 布 和 变化 趋势 ， 这 可 以 让 你 在 执行 长 时 间 、 分 布 式 查 询 时 诊断 工作 市 点 的 


利用 情况 。 


如 图 12-6 所 示 ， 








Stages 区 域 下 方 的 区 域 描述 了 更 多 任务 细节 。 








Tasks 


Host 


172.31.47.164 


172.31.36.102 


172.31.37.8 


172.31.32.176 


172.31.47.164 


State Rows/s Bytes Bytes/s 
FINISHED 
FINISHED 
FINISHED 
FINISHED 


FINISHED 


Elapsed 
47.12s 
45.42s 
47.13s 
46.42s 


46.37s 


| show- | Auto-Refresh: On 


CPU Time 


4.64ms 


1.49m 


1.54m 


1.52m 


1.51m 


Buffered 














图 12-6: 查询 细节 页 面 上 的 任务 信息 区 域 





表 12-2 给 出 了 上 述 任务 列表 中 各 个 值 的 含义 。 
表 12-2: 图 12-6 任 务 列表 中 列 的 描述 








列 描 述 
ID 任务 标识 符 ， 格 式 为 stage-id.task-id。 例 如 ，ID 0.0 表示 Stage 0 的 任务 0，1.2 表示 





Stage 1 的 任务 2 


































































































Host 运行 此 任务 的 工作 节点 的 卫 地 址 

State 任务 的 状态 ， 可 能 的 值 有 PENDING、RUNNING 或 BLOCKED 

Pending Splits 任务 处 于 等 待 (PENDING) 状态 的 切片 数量 。 这 个 值 在 任务 执行 时 不 断 变化 ， 直 到 任 
务 结束 时 变 为 0 

Running Splits 正在 运行 (RUNNING) 的 任务 切片 数量 。 这 个 值 在 任务 执行 时 不 断 变 化 ， 直 到 任务 结 
束 时 变 为 0 

Blocked Splits 阻塞 (BLOCKED) 状态 的 切片 数量 。 这 个 值 在 任务 执行 时 不 断 变 化 ， 直 到 任务 结束 
十 变 为 0 

Completed Splits ”已 完成 的 任务 切片 数量 。 这 个 值 在 任务 执行 时 不 断 变 化 ， 直 到 任务 结束 时 等 于 总 的 切 
片 数量 

Rows 任务 处 理 过 的 总 行 数 ， 该 值 在 任务 执行 时 不 断 上 升 

Rows/s 任务 每 秒 处 理 的 行 数 

Bytes 任务 处 理 的 总 字 节 数 ， 该 值 在 任务 执行 时 不 断 上 升 

Bytes/s 任务 每 秒 执行 的 字 节 数 

Elapsed 任务 经 过 的 挂钟 时 间 总 长 度 

CPU Time 任务 花费 的 总 CPU 时 间 

Buffered 当前 在 缓冲 区 中 等 待 处 理 的 数据 量 


























如 果 你 仔细 查看 这 些 值 ， 就 可 以 发 现 它们 是 如 何 累计 的 。 例 如 ， 所 有 任务 的 总 CPU 时 间 
加 起 来 ， 等 于 它们 所 属 Stage 的 总 CPU 时 间 。 所 有 Stage 的 总 CPU 时 间 加 起 来 ， 等 于 查询 
花费 的 总 CPU 时 间 。 


2. 实时 计划 
实时 计划 (Live Plan) 标签 页 可 以 让 你 实时 观察 Presto 集群 执行 查询 处 理 的 过 程 ， 示 例如 
图 12-7 所 示 。 











Stage0 
FINISHED 
CPU: 19.22ms 


Buffered 0B 
Blocked 19.02m 


Memory: 0B 
Splits: Q:0, R:0, F:17 


Input 1.94kB / 64.0 rows 


Output 
Lcolo] 


Aggregate(FINAL) 


LocalExchange 
[SINGLE] 0 


576B / 64.0 rows 


Stage 1 
FINISHED 
CPU' 1.05h 
Buffered: 0B 
Blocked: 0.00ns 


Memory:0B 
Splits: Qm0, R:0, F:64 


Input: 0B / 6.00B rows 
Aggregate(PARTIAL) 


TableScan 
[tpch:lineitem:sf1000.0] 














12-7: 在 Lineiten 上 执行 count(*) 查询 的 实时 计划 示例 
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任 碍 询 执行 时 ， 图 12-7 中 所 示 查 询 计划 上 的 计数 器 值 会 随 着 查询 的 执行 而 更 新 。 执 行 计划 
上 显示 的 值 的 含义 与 概览 (Overview) 标签 页 中 所 描述 的 相同 ， 区 别 在 于 它们 被 放置 在 查 
询 计划 图 上 并 实时 更 新 。 当 查询 卡 住 或 消耗 时 间 过 长 时 ， 该 视图 能 以 可 视 化 的 方式 帮助 你 





诊断 、 解 决 性 能 问题 。 


3. Stage 性 能 





在 查询 处 理 结束 后 ，Stage 性 能 视图 可 以 提供 有 关 查 询 性 能 细节 的 可 视 化 ， 示 例如 医 





所 示 。 















































Pipeline 0 


TaskOutputOperator 
1.70K rows/s (14.9KB/s) 


Output 64.0 rows (576B) 
Drivers 64 

WallTime 37.6ms 

Blocked ”0.00ms 


Input 64.0 rows (576B) 


AggregationOperator 
1.80B rows/s (0B/s) 


Output 64.0 rows (576B) 
Drivers 64 
WallTime 3.33s 


Blocked 0.00ms 


Input 6.00B rows (0B) 


TableScanOperator 
1.57M rows/s (0B/s) 


Output 6.00B rows (0B) 
Drivers 64 


WallTime 1.06h 


Blocked 0.00ms 


Input 6.00B rows (0B) 








12-8: count(*) Lineitenm 查询 的 Stage 性 能 视图 
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这 个 视图 可 以 看 作 实 时 计划 视图 的 进一步 下 钻 ， 在 这 里 你 可 以 看 到 Stage 内 任务 的 算 子 管 
线 。 计 划 图 上 显示 的 值 与 概览 (Overview) 标签 页 上 描述 的 相同 。 从 这 个 视图 也 可 以 发 现 
查询 在 哪里 卡 住 或 者 哪里 是 性 能 瓶 贷 ， 以 便于 诊断 或 解决 性 能 问题 。 你 可 以 单 击 独 立 的 算 
子 来 获得 更 详细 的 信息 。 


切片 
切片 视图 显示 了 在 查询 执行 过 程 中 切片 创建 和 执行 的 时 间 线 。 





















































JSON 
JSON 标签 页 以 JSON 格式 提供 了 所 有 查询 的 细节 信息 ， 这 些 信息 根据 获取 快照 的 不 同 
而 改变 。 

Web UI 上 的 一 部 分 组 件 为 复制 长 文本 到 系统 剪 切 板 提 供 了 方便 。 请 留意 界面 


上 的 剪 切 板 图 标 ， 当 你 单 击 它 时 ， 可 以 复制 相关 联 的 文本 到 系统 剪 切 板 ， 以 
便 你 在 其 他 地 方 粘 贴 并 使 用 。 















































12.2 ” Presto SQL 查询 调 优 


在 4.8 市 ， 你 已 经 了 解 了 Presto 的 基于 代价 的 优化 器 。 回 顾 一 下 ，SQL 是 一 门 声明 式 的 语 
言 ， 用 户 编写 SQL 查询 来 描述 他 们 想 要 的 数据 。 和 命令 式 程序 不 同 ， 在 SQL 中 ， 用 户 并 
不 指定 如 何 处 理 数据 并 获得 结果 ， 获 得 所 需 结果 的 步骤 将 交 由 查询 优化 器 来 决定 。 这 里 的 
执行 步骤 就 是 所 谓 的 查询 调 优 。 
































大 多 数 情况 下 ， 提 交 SQL 的 终端 用 户 可 以 依赖 Presto 来 计划 、 优 化 和 执行 SQL 查询 ， 并 

快速 高 效 地 获得 结果 。 终 端 用 户 无 须 关 心太 多 细节 。 

然而 ， 有 时 你 无 法 获得 期 望 的 性 能 ， 因 此 需要 进行 Presto 查询 调 优 。 你 需要 鉴别 是 某 个 查 

询 本 身 存在 性 能 问题 ， 还 是 具有 某 些 相似 属性 的 多 个 查询 有 性 能 问题 。 

下 面 先 从 单个 查询 的 调 优 开始 ， 假 设 系统 上 其 他 的 查询 运行 正常 。 在 检查 慢 查询 时 ， 你 应 

该 首先 检查 查询 使 用 到 的 表 是 否 有 数据 统计 信息 。 在 本 文 编写 时 ， 只 有 使 用 Hive 连接 器 

的 表 提供 了 数据 统计 信息 ， 不 过 预计 其 他 连接 器 也 会 很 快 开始 提供 这 些 信息 : 
presto:ontime> SHOW STATS FOR flights; 

SQL 中 Join 是 成 本 最 高 的 操作 之 一 ， 在 进行 查询 性 能 调 优 时 ， 你 应 该 重点 关注 Join。 你 可 

以 在 查询 上 使 用 EXPLAIN 命令 来 确定 Join 顺序 : 





presto:ontime> EXPLAIN 
SELECT f.uniquecarrier, c.description, count(*) AS ct 
FROM postgresql.airline.carrier c, 
hive.ontime.flights _ orc f 
WHERE c.code = f.uniquecarrier 
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GROUP BY f.uniquecarrier, c.description 
ORDER BY count(*) DESC 
LIMIT 10; 


通常 来 说 ， 你 希望 数据 量 较 小 的 输入 表 作 为 Join 的 构建 侧 ， 散 列 Join 中 这 一 侧 会 用 来 构 
建 散 列 表 。 由 于 构建 侧 需 要 读 入 全 部 数据 并 在 内 存 中 构建 散 列表 ， 因 此 你 希望 它 的 输入 
越 小 越 好 。 要 决定 Presto 是 否 生 成 了 正确 的 Join 顺序 ， 需 要 进一步 研究 数据 相关 的 领域 
知识 。 如 果 对 数据 完全 不 了 解 ， 你 可 能 需要 运行 一 些 试验 性 的 查询 来 获得 一 些 额 外 信息 。 
如 果 你 认为 Presto 给 出 的 Join 顺序 不 是 最 优 的 ， 你 可 以 通过 设置 一 个 切换 ， 来 使 用 表 在 
SQL 中 出 现 的 语法 顺序 来 强制 指定 Join 顺序 。 这 可 以 通过 在 config.properties 文件 中 使 用 
optimizer.join-reordering-strategy 属性 进行 全 局 设置 ， 但 如 果 你 只 想 指定 某 一 查询 的 
Join 顺序 ， 则 可 以 使 用 会 话 属性 join_reordering_strategy ( 见 8.8 节 )。 此 属性 的 可 选 值 
有 AUTOMATIC、ELIMINATE_CROSS_JOINS 和 NONE， 而 使 用 后 两 个 选项 值 会 覆盖 CBO 选择 的 
Join 顺序 。ELIMINATE_CROSS_JOINS 是 一 个 不 错 的 折 中 方案 ， 因 为 它 只 会 在 消除 Cross Join 
的 时 候 重 排序 Join (通常 是 最 佳 实践 )， 而 其 他 表 则 保留 查询 编写 者 指定 的 顺序 : 
























































FROM postgresql.airline.carrier C， 
hive.ontime.fLights_orc f 


FROM hive.ontime.flights_orc f, 
postgresql.airline.carrier C 





CBO 调 优 


默认 情况 下 ，Presto CBO 一 次 最 多 可 以 重 排序 9 个 表 。 对 于 超过 9 个 表 的 情况 ，CPO 
会 将 搜索 空间 分 段 。 如 果 查 询 中 有 20 个 表 ， 则 Presto 会 先 将 前 9 个 表 作为 一 个 优化 
问题 进行 排序 ， 再 将 跟着 的 9 个 表 作为 第 二 个 优化 问题 进行 排序 ， 最 后 再 处 理 剩 下 
的 2 个 表 。 之 所 以 设置 这 个 限制 ， 是 因为 可 能 的 Join 顺序 的 数量 是 表 数量 的 阶乘 。 因 
此 ， 必 须 设 定 一 个 合理 的 限制 以 防 搜索 空间 过 大 。 你 可 以 config.properties 文件 中 设 定 
optimizer.max-reordered-joins 参数 来 提高 这 个 值 。 提 高 这 个 值 可 能 会 导致 Presto 花 
费 大 量 时 间 和 资源 进行 查询 优化 ， 从 而 导致 性 能 问题 。 回 顾 一 下 ，CBO 的 目标 不 是 找 
到 最 佳 的 计划 ， 而 是 足够 好 的 计划 。 











除了 Join 优化 之 外 ，Presto 还 包含 一 些 启 发 式 的 优化 。 这 些 优 化 不 是 基于 代价 的 ， 因 此 不 
一 定 总 能 获得 最 佳 的 结果 。 优 化 器 可 以 利用 Presto 是 一 个 分 布 式 查询 引擎 这 一 事实 ， 使 聚 
合 可 以 并 行 运行 。 这 意味 着 聚合 可 以 被 切 分 成 多 个 更 小 的 部 分 ， 从 而 分 发 到 多 个 工作 节点 
上 并 行 运行 ， 并 在 最 终 步骤 从 局 部 结果 聚合 起 来 。 


























222 | 第 12 章 





Presto 和 其 他 SQL 引擎 常用 的 一 个 优化 是 ， 将 部 分 聚合 下 推 到 Join 之 前 执行 ， 从 而 减少 输 
入 Join 的 数据 量 。 要 使 用 这 个 优化 ， 可 以 设置 push_aggregation_through_join 属性 。 由 于 
下 推 的 聚合 只 产生 局 部 结果 ， 因 此 ， 在 Join 之 后 仍 需 要 执行 一 次 最 终 聚 合 。 使 用 这 个 优化 
可 以 获得 的 收益 依赖 于 实际 的 数据 ， 有 时 它 甚至 会 产生 更 慢 的 查询 。 例 如 ， 当 Join 条 件 比 
较 严 格 ， 只 会 产生 少量 数据 时 ， 在 Join 之 后 再 进行 聚合 往往 更 高 效 。 可 以 在 当前 会 话 上 将 
这 个 属性 值 设 为 false， 以 关闭 此 优化 并 进行 性 能 试验 。 























另 一 种 汕 见 的 启发 式 优化 是 在 计算 最 终 聚 合 之 前 先 计 算 局 部 聚合 : 





presto:ontime> EXPLAIN SELECT count(*) FROM flights_orc; 
Query Plan 


- Output[_col0] 
Layout: [count:bigint] 
_Col0 := Count 
- Aggregate(FINAL) 
Layout: [count:bigint] 
count := "count"("count_3") 
- LocalExchange[SINGLE] () 
Layout: [count_3:bigint] 
- RemoteExchange[GATHER] 
Layout: [count_3:bigint] 
- Aggregate(PARTIAL) 
Layout: [count_3:bigint] 
count_3 := "count"(*) 
- TableScan[hive:ontime:flights_orc] 
Layout: [] 
(1 row) 


尽管 这 通常 是 一 种 很 好 的 启发 式 算 法 ， 用 于 存放 散 列表 所 用 的 内 存 的 量 仍 可 以 进一步 调 
优 。 如 果 表 中 有 很 多 行 ， 分 组 键 (GROUP BY) 中 不 同 的 值 很 少时 ， 这 个 优化 会 显著 减少 在 
网 络 上 传输 的 数据 量 ， 因 此 非常 有 效 ; 但 如 果 不 同 的 值 很 多 ， 就 需要 更 大 的 散 列表 来 存放 
这 些 数 据 。 默 认 情 况 下 ， 散 列表 使 用 16MB 的 内 存 ， 但 你 可 以 在 config.properties 文件 中 设 
定 task.max-partial-aggregation-memory 属性 来 调整 这 个 值 。 但 是 ， 如 果 不 同 的 分 组 键 数 
量 太 多 ， 聚 合并 不 能 减少 网 络 传输 的 数据 量 ， 甚 至 可 能 拖 慢 查询 速度 。 


12.3 内存 管 理 


想 要 正确 地 配置 和 管理 Presto 集群 的 内 存 并 不 容易 。 许 多 持续 变化 的 因素 会 影响 内 存 


工作 市 点 的 数量 ， 

协调 器 和 工作 节点 的 内 存 ; 
数据 源 的 数量 和 类 型 ， 

所 执行 的 查询 的 特性 ， 

用 户 的 数量 。 
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对 于 Presto 这 样 的 多 用 户 、 多 工作 节点 系统 ， 资 源 管理 是 一 个 极 具 挑战 性 的 任务 。 基 本 上 
来 说 ， 你 要 先 选 择 一 个 起 始点 ， 再 通过 不 断 地 监控 并 调整 系统 ， 使 其 请 足 现在 和 未 来 的 需 
求 。 让 我 们 深入 细节 ， 讨 论 一 些 关 于 在 Presto 中 管理 和 监控 内 存 的 建议 和 指导 方针 。 









































这 里 讨论 的 所 有 内 存 管 理 方法 都 应 用 于 运行 Presto 工作 节点 的 JVM。 这 些 内 
存 都 是 在 工作 节点 的 JVM 中 分 配 的 ， 因 此 JVM 本 身 的 配置 也 需要 考虑 到 这 
些 值 ， 以 容纳 它们 所 设 定 内 存 分 配 量 。 

根据 并 行 运行 的 查询 数量 ，JVM 可 用 的 内 存 可 能 需要 设 定 为 一 个 更 大 的 值 ， 
下 面 的 例子 说 明了 这 一 点 。 


之 前 提 到 的 所 有 影响 因素 都 可 以 合并 为 工作 负载 (workload) 这 一 因素 进行 考量 。 集 群 内 
存 的 调 优 重度 依赖 上 面 运 行 的 工作 负载 。 

















例如 ， 大 多 数 查询 包含 多 个 Join、 聚 合 和 窗 函 数 。 如 果 查 询 的 工作 负载 轻 ， 你 就 可 以 设 定 
降低 的 单个 查询 内 存 限制 并 提高 并 发 性 ， 反 过 来 ， 如 果 查 询 工作 负载 重 ， 你 就 只 能 提高 单 
个 查询 的 内 存 限制 并 降低 并 发 性 。 近 似 来 讲 ， 查 询 的 规模 相当 于 查询 本 身 的 特性 和 输入 数 
据 量 的 乘积 。Presto 提供 了 一 系列 通过 config.properties 文件 设 定 的 属性 值 ， 可 以 让 你 在 着 
署 时 管理 集群 的 内 存 使 用 : 


。 query.max-memory-per-node 




















。 query.max-totaL-memory-per-node 
。 query.max-memory 


。 query.max-totaL-memory 


Presto 管理 的 内 存 被 分 为 以 下 两 种 类 型 。 


用 户 内 存 
用 户 查 询 中 的 聚合 和 排序 等 操作 会 影响 用 户 内 存 的 分 配 。 
系统 内 存 





系统 内 存 的 分 配 基 于 查询 引擎 自己 的 执行 实现 。 缓 冲 区 的 读 写 和 shuffle、 表 扫描 等 操作 
会 影响 系统 内 存 的 分 配 。 


了 解 了 这 一 分 类 ， 你 就 可 以 进一步 理解 以 下 内 存 属性 了 。 
query.max-memory-per-node 


一 个 查询 在 单个 工作 节点 上 可 以 使 用 的 用 户 内 存 的 最 大 值 。 这 些 内 存 可 用 于 处 理 聚 合 和 
输入 数据 分 配 等 。 


query.max-total-memory-per-node 
一 个 查询 在 单个 节点 上 可 用 的 内 存 总 量 (包括 用 户 内 存 和 系统 内 存 ) 的 最 大 值 ， 这 个 值 
必须 大 于 query.max-memory-per-node。 当 一 个 查询 消耗 的 用 户 内 存 和 系统 内 存 总 量 超 
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过 了 这 个 限制 ， 它 就 会 被 终止。 
query.max-memory 


一 个 查询 在 全 集群 所 有 工作 节点 上 可 以 使 用 的 用 户 内 存 总 量 的 最 大 值 。 


query.max-total-memory 
一 个 查询 可 以 在 全 集群 所 有 节点 上 使 用 的 内 存 总 量 (包括 用 户 内 存 和 系统 内 存 ) 的 最 大 
值 ， 因 此 这 个 值 必 须 大 于 query.max-memory。 


如 有 果 一 个 查询 因 超 过 限制 而 被 终止 ， 系 统 将 返回 下 列 错误 代码 以 说 明 原 因 。 























EXCEEDED_LOCAL_MEMORY_LINMIT 表 示 内 存 使 用 超过 了 query.max-memory-per-node 或 query. 
max-total-memory-per-node 的 限制 。 

EXCEEDED_GLOBAL_MEMORY_LIMIT 表示 内 存 使 用 超过 了 query.max-memory 或 query.max-total- 
memory 的 限制 。 


我 们 来 看 一 个 真实 的 例子 ， 有 个 小 集群 包含 1 个 协调 器 和 10 个 工作 节点 ， 它 的 特性 如 下 
所 示 。 


1 个 协调 器 。 

10 个 工作 节点 ， 通 常 每 个 工作 节点 都 具有 相同 的 系统 规格 。 
每 个 工作 节点 拥有 的 物理 内 存 : 50GB。 

jvm.config 在 -Xmx 中 设置 的 JVM 堆 内 存 上 限 是 38GB。 


query.max-memory-per-node: 13GB。 








query.max-total-memory-per-node: 16GB。 
memory.heap-headroom-per-node: 9GB。 
query.max-memory: S0GB 。 
query.max-totaL-memory: 60GB。 


下 面 进 一 步 分 解 这 些 数字 。 


每 个 工作 节点 上 的 可 用 内 存 总 量 约 50GB， 我 们 为 操作 系统 、 代 理 / 后 台 进 程 以 及 系统 上 
JVM 外 的 组 件 保留 了 约 12GB 的 内 存 ， 监 控 系 统 和 其 他 允许 你 管理 机 器 并 使 其 正常 运行 的 
程序 会 使 用 这 12GB 内 存 。 因 此 ， 我 们 将 JVM 堆 内 存 上 限 设 为 38GB。 


当 查 询 规模 较 小 时 ， 并 发 性 可 以 设置 得 大 一 些 。 在 前 面 的 例子 中 ， 我 们 假设 查询 从 中 等 规 
模 到 大 规模 不 等 ， 并 且 可 能 存在 数据 倾斜 。 一 个 查询 在 集群 整体 可 用 的 用 户 内 存 query. 
max-memory 被 设 为 50GB。 在 讨论 max-memory 的 同时 ， 我 们 还 需要 考虑 原始 散 列 分 区 数 
(initial-hash-partitions ) ， 这 个 值 在 理想 情况 下 应 该 小 于 等 于 工作 节点 的 数量 。 



























































如 果 我 们 将 原始 散 列 分 区 数 设 为 8，max-memory 设 为 30GB ， 则 每 个 节点 得 到 的 用 户 内 存 
配额 就 大 约 为 50GB/8 = 6.25GB 。 我 们 将 节点 本 地 的 限制 nax-memory-per-node 设 为 13GB， 
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在 允许 有 数据 倾斜 的 情况 下 ， 一 个 市 点 最 多 可 以 消耗 平均 内 存 的 两 倍 。 内 存 消耗 量 这 样 的 
数字 根据 数据 组 织 的 方式 和 常见 查询 的 类 型 (也 就 是 集群 的 工作 负载 ) 的 不 同 ， 会 产生 显 
著 的 变化 。 此 外 ， 集 群 的 基础 设施 ， 如 机 器 的 大 小 和 数量 ， 也 对 配置 选择 有 巨大 的 影响 。 


为 了 防止 死 锁 ， 你 可 以 设置 query.low-memory-killer.policy 属性 。 可 选 的 值 是 total- 
reservation 或 totaL-reservation-on-bLocked-nodes。 选 用 totaL-reservation 时 ，Presto 
会 终结 集群 中 占用 内 存 最 多 的 查询 ， 从 而 释放 资产。 另外， 选用 total-reservation-on- 
blocked-nodes 时 ， 系 统 会 终止 在 阻塞 的 节点 上 使 用 最 多 内 存 的 查询 。 


从 例子 中 可 以 看 出 ， 你 可 以 先 根 据 一 些 假设 条 件 开始 设 定 参 数 ， 然 后 再 根据 实际 的 工作 负 
载 进行 调整 。 

例如 ， 为 可 视 化 工具 上 的 交互 式 ad-hoc 查询 所 准备 的 集群 ， 可 能 需要 执行 大 量 小 规模 的 查 
询 。 随 着 用 户 数量 的 增多 ， 查 询 数量 和 并 发 性 都 会 上 升 。 通 常情 况 下 ， 并 不 需要 更 改 内 存 
配置 ， 只 需要 为 集群 添加 工作 市 点 即 可 。 


然而 ， 当 同一 个 集群 接 入 一 个 拥有 海量 数据 的 数据 源 并 在 上 面 执行 复杂 查询 时 ， 这 些 查 询 
就 很 可 能 会 超出 资源 的 使 用 限制 。 此 时 ， 你 就 必须 要 调整 内 存 配 置 了 。 


这 将 引入 另 一 个 值得 一 提 的 点 。 作 为 最 佳 实践 ， 通 常 Presto 集群 应 该 具有 完全 相同 的 工作 
节点 ， 而 所 有 的 工作 节点 都 应 具有 相同 的 虚拟 机 (VM) 镜像 、 容 器 大 小 ， 以 及 相同 的 硬 
件 规格 。 因 此 ， 更 改 工 作 节 点 上 的 内 存 通常 意味 着 ， 新 值 对 于 物理 内 存 来 说 太 大 或 大 小， 
无 法 很 好 地 利用 整个 系统 。 因 此 ， 调 整 内 存 就 需要 替换 集群 中 的 所 有 工作 节点 。 基 于 你 使 
用 的 集群 基础 设施 ， 如 私有 云 中 的 虚拟 机 或 公有 云 中 的 Kubernetes 集群 容器 ， 进 行 这 类 操 
作 的 难 易 程度 也 不 一 样 。 


这 也 引出 了 最 后 一 个 值得 讨论 的 观点 。 你 的 工作 负载 可 能 差异 巨大 : 有 很 多 是 小 的 、 快 速 
且 占 用 很 少 内 存 的 ad-hoc 查询 ， 另 一 些 则 是 庞大 的 、 长 时 间 运 行 、 包 含 各 种 分 析 ， 甚 至 使 
用 不 同 数 据 产 的 查询 。 不 同 的 工作 负载 需要 完全 不 同 的 内 存 设 置 ， 甚 至 不 同 的 工作 节点 设 
置 和 监控 需求 。 在 这 种 场景 下 ， 你 应 该 采取 进一步 的 操作 ， 通 过 使 用 不 同 的 Presto 集群 来 
分 离 工作 负载 。 


12.4 任务 并 发 性 


为 了 提高 Presto 集群 的 性 能 ， 你 需要 修改 一 些 任 务 相 关 的 属性 的 默认 值 。 本 节 我 们 讨论 需 
要 调整 的 两 个 常见 属性 ， 不 过 你 还 可 以 从 Presto 文档 中 找到 一 些 其 他 可 以 调整 的 属性 ， 这 
些 属性 都 在 config.properties 中 设 定 。 
任务 工作 线程 数 
默认 值 是 机 器 CPU 数 的 2 倍 。 例 如 ， 一 台 具 有 2 个 6 核 CPU 的 机 器 使 用 2 x 6 x 2= 24 
个 工作 线程 。 如 果 你 观察 到 所 有 的 线程 都 在 使 用 ， 但 CPU 使 用 率 仍 很 低 ， 则 可 以 尝试 
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借助 task.max-worker-threads 属性 来 增加 线程 数 ， 以 此 提高 CPU 利用 率 和 性 能 。 建 议 
尝试 慢 慢 增加 这 个 值 ， 因 为 将 其 设置 得 过 高 会 带 来 更 高 的 内 存 使 用 和 额外 的 上 下 文 切换 
成 本 ,这 反而 会 带 来 负面 效果 。 


任务 的 算 子 并 发 数 
Join 和 Aggregation 之 类 的 算 子 通过 本 地 数据 分 区 和 并 行 执行 算 子 来 实现 并 行 处 理 。 例 
如 ， 数 据 先 在 本 地 根据 GROUP BY 的 列 进行 分 区 ， 之 后 多 个 Aggregation 算 子 会 并 行 地 进 
行 处 理 。 这 些 并 行 操作 的 默认 并 发 数 是 16， 你 可 以 通过 设 定 task.concurrency 属性 来 
调整 它 。 如 果 你 和 运行 很 多 并 发 的 查询 ， 上 下 文 切换 的 成 本 可 能 会 导致 性 能 下 降 。 对 于 只 
运行 少量 并 发 查询 的 集群 ， 更 高 的 并 发 数 可 以 提高 并 行 度 并 因此 提高 性 能 。 


12.5 工作 节点 调度 


你 可 以 通过 调整 某 些 调度 相关 属性 的 默认 值 来 提高 Presto 集群 的 性 能 。 通 常 有 3 个 常见 的 
配置 可 以 调整 : 
。 每 个 任务 的 切片 数 ， 


。 每 个 节点 的 切 上 请 数 ; 
本 地 调度 策略 。 






























































Presto 文档 还 介绍 了 许多 其 他 相关 属性 。 


12.5.1 根据 任务 或 节点 调度 切片 

每 个 工作 节点 能 处 理 的 切片 数量 有 上 限 ， 默 认 情 况 下 其 最 大 值 是 100。 你 可 以 通过 node- 
scheduler .max-spLits-per-node 属性 调整 这 个 值 。 当 发 现 工 作 节 点 上 的 切片 数 已 经 达到 此 
限制 但 仍 没 有 充分 利用 资源 时 ， 你 可 以 考虑 调整 这 个 值 。 提 高 该 值 通 常会 提高 性 能 ， 特 别 
是 存在 很 多 切片 的 情况 下 。 此 外 ， 你 还 可 以 提高 node-scheduler.max-pending-splits-per- 
task 属性 的 值 ， 这 个 属性 的 值 不 应 该 超过 node-scheduLer .max-spLits-per-node 属性 的 值 。 
它 确 保 在 工作 节点 处 理 任务 的 同时 ， 等 待 的 任务 可 以 被 放 入 队列 中 。 


12.5.2 ”本 地 调度 策略 


Presto 调度 器 使 用 两 种 方法 调度 工作 节点 上 的 切片 ， 具体 使 用 哪 种 方法 依赖 于 Presto 的 部 
署 情 况 。 如 果 工 作证 点 和 分 布 式 存 储 市 点 部 署 在 相同 的 机 器 上 ， 则 最 好 将 切片 调度 在 数据 
所 在 的 工作 布点 上 ， 如 果 将 切片 调度 在 其 他 市 点 而 不 是 数据 所 在 市 点 ， 则 这 些 数据 必须 在 
网 络 上 传输 才能 处 理 。 因 此 ， 将 切片 调度 到 数据 存储 的 节点 上 可 以 提高 性 能 。 





















































你 可 以 使 用 node-schedutLer.network-topotogy 属性 设 定 切 片 调度 策略 ， 此 属性 的 默认 值 
Legacy 在 调度 切片 时 不 会 考虑 数据 位 置 。 你 可 以 将 其 修改 为 flat， 从 而 使 用 考虑 数据 位 置 
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的 改进 策略 。Presto 调度 器 会 使 用 队列 50% 的 空间 来 调度 本 地 切片。 


当 Presto 安装 并 放置 在 HDFS 数据 节点 上 ， 或 使 用 Rubi 充 缓存 (参见 11.2 节 ) 时 ， 适 合 
使 用 flat 策略 。RubiX 将 分 布 式 存储 中 的 数据 缓存 在 工作 市 点 上 ， 因 此 ， 调 度 本 地 切片 会 
提供 更 好 的 性 能 。 


12.6 ”网 络 数 据 交 换 
网 络 配 置 和 设置 以 及 与 数据 源 的 距离 也 是 影响 Presto 集群 性 能 的 重要 因素 。Presto 支持 一 
些 网 络 特定 的 属性 ， 使 你 可 以 修改 默认 值 并 匹配 特定 的 使 用 场景 。 








除了 提高 性 能 以 外 ， 你 有 时 还 需要 调 优 一 些 其 他 的 网 络 相 关 问 题 ， 以 使 你 的 查询 运行 良 
好 。 下 面 将 讨论 可 以 调 优 的 一 些 常 见 的 属性 。 


12.6.1 并 发 性 
Presto 的 数据 交换 客户 端 负责 请 求 上 游 任务 产生 的 数据 ， 它 使 用 的 默认 线程 数 是 25。 你 可 
以 通过 设 定 exchange.client-threads 属性 来 修改 这 个 值 。 














使 用 更 多 的 线程 可 以 提高 大 规模 和 高 并 发 配置 集群 的 性 能 。 这 是 因为 在 这 些 集群 中 ， 产 生 
数据 的 速度 更 快 ， 提 高 用 于 消费 数据 的 并 发 性 可 以 降低 时 延 。 记 住 ， 更 多 的 线程 也 会 需要 
更 多 的 内 存 。 














12.6.2 ”缓冲 区 大 小 
在 数据 交换 上 时， 发 送 方 和 接收 方 会 将 收发 的 数据 放 在 缓冲 区 中 。 发 送 方 和 接收 方 的 缓冲 区 
大 小 可 以 分 别 配置 。 


在 发 送 方 ， 任 务 将 产生 的 数据 写 入 缓冲 区 并 等 待 下 游 的 数据 交换 客户 端 进行 请 求 。 默 认 的 
缓冲 区 大 小 是 32MB， 这 可 以 通过 sink.max-buffer-size 属性 调整 。 提 高 这 个 值 可 能 有 助 
于 提高 大 规模 集群 的 吞吐 量 。 


在 接收 方 ， 在 下 游 任务 处 理 数 据 前 ， 数 据 先 放 置 在 缓冲 区 中 。 这 个 缓冲 区 的 默认 大 小 也 是 
32MB 且 可 以 通过 exchange.max-buffer-size 属性 进行 调整 。 设 定 较 大 的 接收 缓冲 区 可 以 
从 网 络 上 获取 更 多 数据 来 延缓 背 压 (back pressure) 的 发 生 ， 从 而 提高 查询 性 能 ， 特 别 是 
大 规模 集群 的 性 能 。 











12.7 JVM 调 优 


在 第 2 章 中 ， 你 已 经 知道 可 以 使 用 etc/jvm.config 配置 文件 来 配置 JVM 的 命令 行 选 项 。 
Presto 启动 器 使 用 这 个 文件 的 内 容 启 动 运行 Presto 的 JVM。 相 比 前 面 提 到 的 配置 ， 更 适合 
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生产 环境 下 使 用 的 配置 会 设 定 更 高 的 内 存 限制 : 


-server 
-XX:+UseG1GC 
-XX:+ExplicitGCInvokesConcurrent 
-XX:+ExitOnOutOfMemoryError 
-XX:+UseGCOverheadLimit 
-XX:+HeapDumpOnOutOfMemoryError 

-XX: -UseBiasedLocking 
-Djdk.attach.allowAttachSelf=true 
-Xms16G 

-Xmx16G 

-XX:GlHeapRegionSize=32M 
-XX:ReservedCodeCacheSize=512M 
-Djdk.nio.maxCachedBufferSize=2000000 














你 经 常 需要 设 定 xmx 属性 的 值 来 扩大 JVM ea (在 本 例 中 ， 这 扩大 到 
16GB )。 使 用 xms 参数 可 以 设 定 初始 的 最 小 内 存 分 配 池 大 小 。 通 常 建 议 将 Xmx 和 xms 设 定 
为 相同 值 。 

前 面 的 配置 示例 将 内 存 设 定 为 16GB， didi le 器 的 内 存 容量 。 
通常 推荐 将 Xmx 和 xms 都 设置 为 系统 总 内 存 的 80%， 这 为 其 他 的 系统 进程 预 留 出 很 多 空 
间 。 更 多 有 关 Presto 内 存 管理 的 配置 参见 12.3 节 。 

对 于 大 规模 的 Presto 部 署 ， 分 配 大 于 200GB 的 内 存 并 不 罕见 





Presto 可 以 后 


的 软件 共享 系 


监视 程序 这 样 的 小 程序 运行 在 相同 的 机 器 上 ， 但 强烈 建议 不 与 其 他 资源 密集 
系统 。 例 如 ，Presto 和 Apache Spark 不 应 该 运行 在 同一 组 硬件 上 。 











如 果 你 怀疑 Java 垃圾 回收 (GC 





-XX:+PrintGCApplicationConcurrentTime 
-XX:+PrintGCApplicationStoppedTime 
-XX:+PrintGCCause 
-XX:+PrintGCDateStamps 
-XX:+PrintGCTimeStamps 
-XX:+PrintGCDetails 
-XX:+PrintReferenceGC 
-XX:+PrintClassHistogramAfterFullGC 
-XX:+PrintClassHistogramBeforeFullGC 
-XX:PrintFLSStatistics=2 
-XX:+PrintAdaptiveSizepPolicy 
-XX:+PrintSafepointStatistics 
-XX:PrintSafepointStatisticsCount=1 


> 


这 些 选 项 在 调试 full GC 停顿 问题 时 非常 有 用 。 由 于 
工程 改良 ，GC 停顿 应 该 很 少 发生 。 如 果真 的 发 生 了 
题 的 第 一 步 通常 是 升级 JVM 和 Presto 的 版 本 ， 因 为 二 























) 有 问题 ， 可 以 添加 额外 的 参数 来 调试 : 


JVM 本 身 的 进步 和 Presto 查询 引擎 的 
， 就 应 该 仔细 检查 原因 。 修 复 此 类 问 
者 经 常 更 新 4 性 能 。 
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同 的 行为 。 


12.8 资源 组 





JVM 和 垃圾 回收 算法 及 其 配置 都 是 复杂 话题 。 你 可 以 从 Oracle 或 其 他 JVM 
供应 商 那里 获得 GC 调 优 的 文档 。 我 们 强烈 建议 在 将 这 些 设 置 部 署 到 生产 环 
境 前 ， 先 在 测试 环境 内 微调 它们 。 同 时 请 注意 ，Presto 现在 要 求 使 用 Java 11 
版 本 ， 较 新 或 较 老 的 JVM 版 本 以 及 其 他 供应 商 提供 的 JVM 都 可 能 表现 出 不 





资源 组 (resource group) 是 Presto 中 用 于 限制 系统 资源 使 用 的 一 个 非常 有 用 的 概念 。 资 源 


组 的 配置 包含 两 个 方面 : 资源 组 属性 和 选择 器 规则 。 


资源 组 是 一 系列 定义 可 用 集群 资源 的 命名 属性 ， 你 可 以 认为 一 个 资源 组 是 集群 中 与 其 他 资 
源 组 隔离 的 一 部 分 资源 。 资 源 组 由 CPU 和 内 存 限制 、 并 发 数 限制 、 队 列 优先 级 和 队列 中 


查询 的 优先 级 权重 等 定义 。 


另外 ， 选 择 器 规则 允许 Presto 将 接收 到 的 查询 请 求 分 配 到 特定 的 资源 组 。 


默认 的 资源 组 管理 器 使 用 基于 文件 的 配置 并 通过 etc/resource-groups.properties 文件 指定 类 





型 和 配置 文件 路 径 。 


resource-groups.configuration-manager=file 
resource-groups.config-file=etc/resource-groups.json 


如 你 所 见 ， 真 正 的 配置 是 一 个 JSON 格式 的 文件 。 此 文件 的 内 容 定 义 了 资源 组 和 选择 器 规 


则 。 注 意 这 个 JSON 文件 可 以 放 在 Presto 能 访问 的 任何 路 径 上 ， 并 且 你 只 需 丰 





置 资 源 组 即 可 : 


€ 
"rootGroups": []， 
"selectors": []， 
"cpuQuotaperiod": "" 


} 


cpuQuotaPeriod 字段 是 可 选 的 。 





下 面 先 来 看 两 个 资源 组 的 定义 : 











"rootGroups": [ 

{ 
"name": "ddl", 
"maxQueued": 100, 
"hardConcurrencyLimit": 10， 
"softMemoryLimit": "10%", 

]， 

{ 


"name": "ad-hoc", 








E 协 调 器 上 配 








230 | 第 12 章 


"maxQueued": 50， 
"hardConcurrencyLimit": 1， 
"softMemoryLimit": "100%", 
} 
] 


上 述 例子 定义 了 两 个 资源 组 ， 分 别名 为 ddl 和 ad-hoc。 每 个 资源 组 都 设 定 了 最 大 并 发 查询 
数 和 总 的 分 布 式 内 存 上 限 。 对 于 给 定 的 资源 组 ， 如 果 已 经 达到 并 发 数 或 内 存 限制 ， 则 新 的 
查询 会 在 队列 中 等 待 。 一 旦 总 内 存 使 用 下 降 或 查询 结束 ， 资 源 组 就 会 从 队列 中 选择 一 个 查 
询 来 调度 运行 。 每 个 资源 组 的 查询 队列 长 度 有 上 限 ， 如 果 达 到 了 限制 ， 则 新 的 查询 会 被 拒 
绝 并 且 客 户 端 会 收 到 错误 提示 。 








在 我 们 的 例子 中 ，ad-hoc 资源 组 则 在 处 理 非 DDL 查询 的 所 有 查询 。 这 个 资源 组 一 次 只 
许 一 个 查询 运行 ， 最 多 可 以 有 50 个 查询 在 队列 中 等 待 。 这 个 资源 组 的 内 存 限 制 是 100%， 
意味 着 它 可 以 使 用 集群 中 的 全 部 内 存 。 


DDL 查询 有 它们 自己 的 资源 组 。 由 于 这 些 类 型 的 查询 相对 短小 和 轻 量 ， 因 此 不 应 该 被 长 时 
间 运 行 的 ad-hoc SQL 查询 阻塞 。 在 这 个 组 中 ， 我 们 设 定 了 最 多 有 10 个 DDL 查询 并 发 运 
行 。 所 有 查询 使 用 的 分 布 式 内 存 加 起 来 不 应 该 超过 Presto 集群 内 存 的 10%， 这 使 得 DDL 
查询 无 须 与 ad-hoc 查询 在 同一 个 队列 等 待 执行 。 














现在 已 经 定义 了 两 个 资源 组 ， 可 以 开始 定义 选择 器 规则 了 。 当 一 个 新 的 查询 到 达 协 调 器 
时 ， 它 被 分 配 到 一 个 特定 的 组 。 下 面 是 一 个 例子 : 





"selectors": [ 


{ 
"queryType": "DATA_DEFINITION", 
"group": "ddl" 

]， 

{ 
"group": "ad-hoc" 

} 


] 


第 一 个 选择 器 匹配 类 型 为 DATA_DEFINITION 的 所 有 查询 ， 并 将 它 分 配 到 ddl 资源 组 。 第 二 
个 选择 器 匹配 所 有 的 查询 ， 并 将 它们 放 到 ad-hoc 资源 组 。 





选择 器 的 顺序 非常 重要 ， 因 为 它们 是 依次 处 理 的 ， 直 到 某 一 个 选择 器 匹配 成 功 并 将 查询 分 
配 到 资源 组 。 若 要 成 功 匹 配 ， 查 询 必 须 匹 配 所 有 指定 的 属性 。 如 果 我 们 调换 两 个 选择 器 的 
顺序 ， 则 包括 DDL 在 内 的 所 有 的 查询 都 会 被 分 配给 ad-hoc 资源 组 ， 而 ddl 资源 组 不 会 分 
配 到 任何 查询 。 


























12.8.1 资源 组 的 定义 
让 我 们 进一步 了 解 资源 组 的 以 下 属 


生 。 
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name 


资源 组 名 ， 必 填 项 。 选 择 器 规则 会 使 用 这 个 名 称 引 用 资源 组 以 分 配 查询 。 





maxQueued 


资源 组 查询 队列 的 最 大 长 度 ， 必 填 项 。 





hardConcurrencyLimit 
资源 组 允许 的 最 大 并 发 查询 数量 ， 必 填 项 。 
softMemoryLimit 


并 发 运行 的 查询 可 以 使 用 的 分 布 式 内 存 最 大 值 ， 必 填 项 。 一 旦 达到 此 限制 ， 在 内 存 释 放 

之 前 ， 新 的 查询 都 要 在 队列 中 等 待 。 属 性 值 可 以 使 用 绝对 值 (GB) 和 百分比 (%)。 
softCpuLimit 

在 一 个 时 间 段 (由 cpuQuotaPeriod 属性 定义 ) 中 可 以 使 用 的 CPU 时 间 的 软 限制 ， 可 选 

项 。 一 旦 达到 此 限制 ， 正 在 执行 的 查询 会 被 施加 一 个 惩罚 。 





hardCpuLimit 
在 一 个 时 间 段 (由 cpuQuotaPeriod 属性 定义 ) 中 可 以 使 用 的 CPU 时 间 的 硬 限制 ， 可 选 
项 。 一 旦 达到 这 个 限制 ， 就 会 拒绝 查询 直到 下 一 个 配额 时 间 段 (quota period)。 











scheduLingPoLicy 

在 资源 组 的 查询 队列 中 选择 一 个 新 的 查询 来 调度 和 处 理 的 策略 ， 参 见 12.8.2 市 。 
schedulingWeight 

与 schedulingPolicy 一 起 使 用 的 可 选 属性 。 
jmxExport 


虽 示 资源 组 是 否 通过 JMX 暴露 信息 的 标志 ， 默 认 是 false。 
subGroups 


用 于 其 他 骨 套 资源 组 的 容器 。 


12.8.2 ”调度 策略 


上 述 列表 中 schedulingPolicy 属性 的 值 可 以 配置 为 在 以 下 几 种 模式 中 运行 的 值 。 


公平 调度 
将 schedulingPolicy 设 为 在 先进 先 出 (FIFO) 队列 中 的 公平 调度 查询 。 如 果 此 资源 组 
包含 子 资 源 组 ， 就 会 交替 使 用 队列 中 有 查询 的 子 资源 组 。 


优先 级 调度 
将 schedulingPolicy 设置 为 query_priority 会 基于 优先 队列 调度 查询 。 查 询 的 优先 级 
由 客户 端的 query_priority 会 话 属性 指定 (参见 8.8 节 )。 如 果 资 源 组 有 子 资源 组 ， 则 
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子 资 源 组 也 必须 指定 query_priority。 


权重 调度 
将 schedulingPolicy 设置 为 weighted_fair， 这 用 于 选择 启动 下 一 个 查询 的 子 资源 组 。 此 
策略 需要 配合 schedulingWeight 属性 使 用 : 调度 器 将 基于 子 资源 组 的 schedulingWeight 
按 比例 选择 查询 。 





12.8.3 选择 器 规则 定义 

选择 器 规则 (selector rule) 必须 定义 group 属性 ， 此 属性 决定 将 查询 分 配 到 哪个 资源 组 。 
最 好 将 文件 中 的 最 后 一 个 选择 器 设置 为 具有 group 属性 的 规则 ， 它 将 为 所 有 查询 显 式 指定 
一 个 默认 组 。 














可 以 使 用 可 选 属性 和 正则 表达 式 定义 选择 器 规则 。 





USer 


匹配 用 户 名 。 可 以 使 用 正则 表达 式 来 匹配 多 个 名 称 。 


source 


匹配 查询 来 源 ， 例 如 presto-cli 或 presto-jdbc。 可 以 使 用 正则 表达 式 进行 匹配 。 


queryType 
匹配 查询 类 型 ， 可 选项 包括 DATA_DEFINITION、DELETE、DESCRIBE、EXPLAIN、INSERT 和 
SELECT 。 





clientTags 


匹配 提交 查询 的 客户 端 指定 的 客户 端 标 签 。 


你 可 以 使 用 - -source 或 --client-tags 选项 在 Presto CLI 上 指定 查询 来 源 和 客户 端 标签 ; 





$ presto --user mfuller --source mfuller-cli 


$ presto --user mfuller --client-tags adhoc-queries 


12.9 小 结 


蔡 喜 ! 你 已 经 和 Presto 一 起 走 过 了 很 长 的 路 。 在 本 章 中 ， 你 了 解 了 监控 、 调 优 和 配置 Presto 
的 诸多 细节 。 当 然 ， 总 是 有 很 多 知识 要 学 ， 这 些 技能 通常 会 随 着 实践 不 断 提 高 。 确 保 你 和 
其 他 用 户 之 间 保 持 联系 以 交换 想法 ， 学 习 别人 的 经 验 以 及 加 入 Presto 社区 (参见 1.4.3 节 )。 


在 第 13 章 中 ， 你 将 了 解 到 其 他 人 用 Presto 取得 的 成 绩 。 
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第 13 章 


真实 世界 的 案例 





如 1.5 节 所 述 ，Presto 最 初 是 由 Facebook 开发 的 。 自 2013 年 开源 以 后 ， 很 多 行业 和 公司 开 
始 使 用 它 。 


在 本 章 中 ， 你 会 看 到 一 些 关 键 数字 和 特性 ， 它 们 能 让 你 对 Presto 的 潜力 有 更 好 的 认识 。 记 
住 ,这 些 公司 都 是 先 从 小 集群 开始 使 用 ， 并 在 使 用 的 过 程 中 逐渐 学 习 的 。 当 然 ， 很 多 更 小 
或 更 大 的 公司 也 在 使 用 Presto。 这 里 给 出 的 数据 只 是 让 你 对 Presto 可 以 扩展 到 什么 地 步 有 
一 个 大 概 的 认识 。 

















此 外 ， 别 忘 了 很 多 平台 会 内 骨 Presto。 这 些 平台 可 能 不 会 暴露 内 部 使 用 了 Presto 这 件 事 ， 
也 通常 不 会 暴露 用 户 数 、 架 构 和 其 他 特性 。 




















本 章 引用 的 统计 数值 都 基于 公开 可 获取 的 信息 。 本 书 仓库 包含 指向 数据 源 的 
链接 ， 如 博客 文章 、 会 议 上 公布 的 演示 文稿 和 视频 等 (参见 1.4.6 节 )。 在 你 
阅读 这 本 书 时 ， 这 些 数据 可 能 已 经 过 时 或 不 再 精确 。 然 而 ， 随 着 更 多 的 人 使 
用 Presto， 本 章 的 内 容 可 以 帮助 你 理解 Presto 能 做 到 什么 ， 以 及 其 他 用 户 如 
何 成 功 地 部 署 、 运 行 和 使 用 它 。 


























13.1 部 署 和 运行 时 平台 


将 Presto 部 署 在 哪里 以 及 如 何 部 署 是 一 个 重要 的 因素 ， 它 会 影响 到 从 底层 的 技术 需求 到 面 
向 上 层 用 户 的 方方面面 。 从 技术 的 角度 来 看 ， 影 响 包括 运行 Presto 需要 人 为 参与 的 程度 、 
使 用 的 工具 和 运 维 技 术 。 从 用 户 的 角度 来 看 ， 平 台 会 影响 诸如 总 体 性 能 、 演 进 速 度 和 对 不 
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同 需求 的 适应 性 等 方面 。 


最 后 ， 甚 他 方面 也 可 能 影响 你 的 选择 ， 比 如 使 用 你 所 在 公司 内 部 的 特定 平台 以 及 预期 成 
本 。 下 面 给 出 了 一 些 常 规 做 法 。 





























下 面 是 决定 在 哪里 运行 Presto 所 需 考 虑 的 点 。 

。 物理 机 组 成 的 集群 越 来 越 少见 。 

。 虚拟 机 是 目前 最 常用 的 平台 。 

。 容器 的 使 用 正 逐 渐 成 为 标准 ， 很 可 能 取代 虚拟 机 的 位 置 。 





作为 一 个 现代 的 、 横 向 扩展 的 应 用 程序 ，Presto 可 以 运行 在 所 有 的 常见 部 署 平台 : 





。 基于 OpenStack 的 私有 云 ; 
。 包括 AWS、GCP 和 Azure 在 内 的 公共 云 供应 商 ，; 
。 混合 部 署 。 














下 面 是 一 些 案例 : 


。 Lyft 在 AWS 上 运行 Presto; 
。 Pinterest 在 AWS 上 运行 Presto; 
。 Twitter 在 私有 云 和 GCP 上 混合 部 团 Presto。 


业界 迁移 到 容器 和 Kubernetes 的 趋势 也 影响 了 Presto 的 部 署 方式 。 越 来 越 多 的 Presto 集群 
运行 在 私有 或 公有 Kubernetes 集群 上 。 


13.2 ”集群 规模 


一 些 较 大 的 用 户 运行 的 Presto 集群 的 规模 即使 在 这 个 到 处 都 是 大 数据 的 时 代 也 十 分 惊人 。 
多 年 来 ，Presto 已 被 证 明 可 以 在 生产 环境 下 大 规模 部 署 。 

到 目前 为 止 ， 我们 主要 谈论 的 是 单个 Presto 集群 ， 但 已 多 次 提示 过 你 可 以 运行 多 个 集群 。 
在 现实 世界 中 大 规模 使 用 Presto 的 情况 大 多 数 是 使 用 多 集群 部 署 。 就 Presto 配置 、 数 据 源 
和 用 户 访问 等 几 个 方面 来 说 ， 有 很 多 种 使 用 多 集群 的 方法 : 


本 相同 配置 ; 
。 不 同 配置 ， 
。 混合 配置 。 




















使 用 配置 相同 的 集群 有 以 下 优势 。 
。 使 用 负载 均衡 器 可 以 让 你 在 不 影响 用 户 使 用 的 情况 下 升级 集群 。 
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协调 器 故障 不 会 导致 系 统 停止 服务 。 

为 了 提高 集群 性 能 所 进行 的 横向 扩展 可 以 包含 来 自 不 同和 运行 时 平台 的 集群 。 例 如 ， 你 上 
能 有 一 个 长 期 使 用 的 内 部 Kubernetes 集群 和 一 个 部 署 在 公共 云 上 的 临时 Kubernetes 集 

群 。 后 者 可 用 于 在 高 峰 时 段 分 担任 务 负载 。 














另外 ， 相 互 独立 的 集群 可 以 让 你 清晰 地 隔离 不 同 的 使 用 场景 并 在 不 同方 面 调 优 集群 : 


可 用 数据 源 ， 

集群 距离 数据 源 的 位 置 ， 

不 同 的 用 户 和 访问 权限 ， 

调整 工作 市 点 和 协调 器 的 配置 以 适应 不 同 的 使 用 场景 例如， 针对 ad-hoc 交互 式 查 询 
和 长 时 间 运 行 的 批量 任务 进行 调整 。 





下 列 公 司 运行 着 多 个 不 同 的 Presto 集群 : 


。 Comcast 
。 Facebook 
。 Lyft 

。 Pinterest 


。 Twitter 


本 章 提 到 的 大 多 数 其 他 组 织 很 可 能 也 使 用 了 多 个 集群 ， 但 没有 将 它们 列 入 的 
原因 是 ， 我 们 尚未 找到 可 以 证 明 这 一 点 的 公开 引用 。 

















看 过 集群 的 数量 之 后 ， 我 们 来 看 一 下 节点 的 数量 。 有 一 些 部 署 的 规模 真 的 很 大 ， 另 一 些 部 
署 则 是 你 在 未 来 可 能 达到 的 规模 。 


。 Facebook: 多 个 集群 共 使 用 了 超过 10 000 个 节点 。 
。 FINRA: 超过 120 个 节点 。 

。 Linkedm: 超过 500 个 节点 。 

。 Lyft: 超过 400 个 节点 ， 每 个 集群 100~150 个 节点 。 
。 Netflix: 超过 300 个 节点 。 

。 Twitter: 超过 2000 个 节点 。 

。 Wayfair: 300 个 节点 。 

。 Yahool Japan: 600 个 节点 。 
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13.3 ”Hadoop/Hive 迁 移 的 使 用 场景 


从 Hive 迁移 过 来 可 能 仍 是 Presto 最 常见 的 使 用 场景 ， 这 让 我 们 可 以 高 效 地 执行 SQL， 并 
与 之 前 保持 兼容 。 而 之 所 以 迁移 ， 往 往 是 为 了 能 够 查询 HDFS 以 外 的 数据 ， 如 Amazon S3 
及 其 兼容 系统 ， 以 及 很 多 其 他 分 布 式 存储 系统 等 。 


Presto 的 第 一 个 使 用 场景 往往 成 为 在 其 他 方面 更 广泛 使 用 Presto 的 跳板 。 




















使 用 Presto 来 查询 这 些 系统 中 的 数据 的 公司 包括 Comcast、Facebook、LinkedIn 、Twitter、 
Netflix 和 Pinterest。 下 面 是 一 些 公司 使 用 Presto 处 理 的 数据 量 。 


。 Facebook: 300PB。 

。 FINRA: 超过 4PB。 

。 Lyft: 超过 20PB。 

。 Netflix: 超过 100PB。 


13.4 其 他 数据 源 

在 典型 的 Hadoop/Hive/ 分 布 式 存储 使 用 场景 之 外 ，Presto 也 越 来 越 多 用 于 许多 其 他 数据 源 。 
这 有 既 包 括 Presto 项 目 官方 提供 的 连接 器 支持 的 数据 源 ， 也 包括 很 多 开源 项 目 、 内 部 开发 项 
目 和 商业 供应 商 等 提供 的 第 三 方 连接 器 支持 的 数据 源 。 
































下 面 是 一 些 例子 ， 








Comcast: Apache Cassandra、 Microsoft SQL Server、MongoDB、Oracle、Teradata 
。 Facebook: MySQL 
。 Insight: Elasticsearch、Apache Kafka、 Snowflake 
。 Wayfair: MemSQL、 Microsoft SQL Server、Vertica 


13.5 ”用户 和 流量 
最 后 ， 我 们 来 看 看 这 些 部 署 Presto 的 用 户 及 其 通常 的 查询 数量 。 用 户 包 括 使 用 仪表 盘 和 
ad-hoc 查询 的 商业 分 析 师 、 挖 气 日 志文 件 和 测试 结果 的 开发 者 等 。 








下 面 是 一 小 部 分 用 户 量 的 统计 。 











。 Arm Treasure Data: 大 约 3500 名 用 户 。 

。 Facebook: 每 天 使 用 的 员工 超过 1000 名 。 
FINRA: 超过 200 名 用 户 。 

。 LinkedIn: 大 约 1000 名 用 户 。 
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。 Lyft: 大 约 1500 名 用 户 。 
。 Pinterest: 月 活跃 用 户 超过 1000 名 。 
。 Wayfair: 超过 200 名 用 户 。 


查询 的 规模 从 小 而 简单 人 乃至 ETL 类 型 的 工作 负载 都 有 。 因 
此 ， 查 询 的 数量 本 身 只 能 透露 部 分 信息 ， 但 你 仍 能 从 中 了 解 Presto 处 理 任务 的 规模 。 








。 Arm Treasure Data: 每 天 大 约 600 000 条 查询 。 
。 Facebook: 每 天 超过 30 000 条 查询 。 
。 LinkedIn: 每 天 超过 20 000 条 查询 。 
。 Lyft: 每 天 超过 100 000 条 查询 ， 每 月 超过 1 500 000 条 查询 。 
。 Pinterest: 每 月 超过 400 000 条 查询 。 
Slack: 每 天 超过 20 000 条 查询 。 
。 Twitter: 每 天 超过 20 000 条 查询 。 
。 Wayfair: 每 月 多 达 180 000 条 查询 。 


13.6 ”小结 


Presto 可 以 支持 的 运行 规模 和 覆盖 的 使 用 场景 很 广 。 可 以 看 到 ，Presto 广泛 应 用 于 多 个 行 
业 。 作 为 新 用 户 ， 你 可 以 确信 Presto 能 扩展 到 你 所 需 的 规模 并 能 处 理 你 的 工作 负载 。 


我 们 鼓励 你 借助 各 种 资源 进一步 了 解 Presto ， 特 别 是 加 入 Presto 社区 和 参与 社区 活动 。 
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无 论 最 初 深 入 学 习 Presto 的 动机 是 什么 ， 你 现在 已 经 取得 了 很 大 的 进步 。 蕉 喜 你 ! 


本 书 履 盖 了 Presto 的 很 多 相关 内 容 ， 从 Presto 概览 和 它 的 使 用 场景 ， 到 安装 和 运行 Presto 
集群 。 你 了 解 了 Presto 的 架构 与 它 如 何 优化 和 运行 查询 。 








你 学 习 了 多 种 连接 器 ， 可 以 通过 它们 将 Presto 和 分 布 式 存储 系统 、RDBMS 和 许多 其 他 数 
据 源 连接 起 来 。 借 助 Presto 的 标准 SQL 支持 ， 你 可 以 查询 它们 ， 其 至 还 能 在 一 个 查询 里 组 
合 来 自 不 同 数据 源 的 数据 ( 即 联邦 查询 )。 


之 后 ， 你 掌握 了 在 生产 环境 大 规模 运行 Presto 的 后 续 步 又 ， 以 及 Presto 在 一 些 组 织 当 中 的 











希望 你 已 经 迫不及待 地 将 这 些 知 识 用 于 实践 ， 我 们 期 待 着 在 社区 聊天 室 收 到 你 的 消息 ( 别 
忘记 查看 1.4.3 节 )。 





感谢 阅读 ，Presto 社区 欢迎 你 加 入 1 


马 特 、 曼 弗 雷 德 和 马丁 
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关于 作者 


马 特 : 富 勒 (Matt Fuller) 是 Presto 公司 Starburst 的 联合 创始 人 。 在 创立 Starburst 之 前 ， 
他 是 Teradata 的 工程 负责 人 ， 为 公司 构建 了 全 新 的 Center for Hadoop 部 门 ， 其 中 主要 的 
工作 就 是 将 Presto 引入 企业 市 场 。 自 2015 年 开始 ， 马 特 就 管理 一 个 向 Presto 开源 项 目 
贡献 代码 的 团队 ， 并 主导 内 部 的 Presto 产品 路 线 图 。Teradata 的 这 个 团队 后 来 发 展 成 了 
Starburst 公司 。 





在 加 入 Teradata 之 前 ， 马 特 是 Vertica 早期 的 工程 师 ， 他 在 这 里 参与 构建 了 Vertica 的 查询 
优化 器 。 马 特 也 是 数据 库 领 域 顶 级 会 议 VLDB 论文 作者 并 在 数据 库 管 理 系统 领域 拥有 多 项 
美国 专利 。 


曼 弗 雷 德 . 莫 泽 (Manfred Moser) 是 开源 社区 拥护 者 、 作 家 、 培 训 师 ， 并 在 Starburst 担 
任 软 件 工 程 师 。 他 长 期 致力 于 开发 开源 软件 并 促进 其 社区 的 发 展 。 曼 弗 雷 德 是 Apache 
Maven 的 贡献 者 ， 曾 写 过 The Hudson Book 等 书 ， 并 持续 积极 参与 开源 社区 和 开源 项 目 。 
他 是 C1/CD、 云 原生 、 敏 捷 开 发 ， 以 及 其 他 软件 开发 工具 和 流程 方面 的 资深 培训 师 和 技 
术 会 议 演 讲 者 。 曼 弗 雷 德 已 为 Walmart Labs、Sonatype 和 Telus 等 公司 累计 培训 了 超过 
20 000 名 开发 者 。 


曼 弗 雷 德 拥有 数据 库 背 景 ， 曾 在 RDBMS 领域 进行 数据 库 和 相关 应 用 程序 的 设计 ， 并 作为 
商业 智能 顾问 写 过 成 千 上 万 行 的 SQL。 现 在 ， 他 很 高 兴 可 以 使 用 Presto 并 致力 于 让 更 多 的 
人 知道 Presto 有 多 么 优秀 。 


马丁 . 特 拉 韦 尔 索 (Martin Traverso) 是 Presto 软件 基金 会 的 联合 创始 人 和 Starburst 的 首 
席 技 术 官 。 在 创立 Starburst 之 前 ， 马 丁 是 Facebook 的 软件 工程 师 。 在 Facebook 时 ， 他 
注意 到 对 快速 交互 式 SQL 分 析 的 需求 ， 并 和 其 他 三 位 工程 师 一 起 创造 了 Presto， 之 后 带 
领 Presto 开发 团队 于 2013 年 将 其 投入 生产 环境 。 同 年 秋天 ，Presto 开放 源 代码 ， 从 此 在 
Facebook 公司 内 外 得 到 广泛 采用 。 


在 加 入 Facebook 之 前 ， 马 丁 在 Proofpoint 和 Ning 担任 架构 师 ， 在 那里 他 主导 了 无 数 复杂 
的 企业 应 用 程序 和 社交 网 络 应 用 程序 的 开发 与 架构 设计 。 


关于 封面 

本 书 封面 上 的 动物 是 南方 狗 蛙 (Lithobates sphenocephalus)。 这 种 鞠 蛙 原生 于 北美 洲 东 部 ， 
分 布 于 从 纽约 南部 到 佛罗里达 州 的 大 片区 域 ， 向 西 可 达 俄 克拉 何 马 州 东 部 。 在 夏季 ， 很 容 
易 在 淡水 栖息 地 和 潮湿 植被 附近 找到 它们 。 





南方 鹏 时 以 在 棕 绿 色 身 体 上 遍布 独特 的 圆 点 而 闻名 。 它 的 
部 有 一 条 由 隆起 的 皮肤 形成 的 明显 的 状 。 韶 性 南方 狗 蛙 通 
趾 执 。 


头 很 兴 ， 腿 很 长 ， 从 眼睛 到 劈 
常 比 雄 性 体型 大 ， 二 者 都 没有 
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南方 鹏 蛙 是 夜行 动物 ， 通 常 捕食 小 型 无 背 椎 昆虫 和 蜂 蛛 ， 但 某 些 体型 较 大 的 南方 豹 蛙 偶尔 
也 会 吃 掉 小 型 背 椎 动物 。 在 白天， 它们 隐藏 在 淡水 水 体 附 近 的 植被 中 。 它 们 经 常 连 续 跳跃 
三 次 ， 并 可 以 跳 得 很 高 。 它 们 平时 单独 行动 ， 只 有 在 交配 季节 才 会 大 量 群 聚 。 它 们 有 一 对 
发 声 裳 ， 膨 胀 为 球形 时 可 以 发 出 短促 的 喉 颤 音 ， 非 常 像 小 鸡 在 咕 咕 叫 。 南 方 豹 蛙 的 鸣叫 声 
比 其 许多 近亲 传 得 远 。 

岛 类 、 水 猎 、 某 些 鱼 和 多 种 蛇 会 捕食 南方 豹 蛙 。 它 们 还 遭 到 大 量 抓 捕 以 用 作 诱 乌 或 用 于 科 
研 和 教学 目的 。 尽 管 在 本 书写 作 时 ， 南 方 豹 蛙 的 濒危 状态 是 “无 让 "， 但 O'Reilly 图 书 封 
面 上 的 很 多 动物 是 濒危 物种 ， 它 们 对 世界 很 重要 。 


封面 图 片 由 Jose Marzan 基于 Wood* Natural History 上 的 黑白 版 画 绘制 。 
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技术 改变 世界 阅读 塑造 人 生 







SQL 查询 : 从 入 门 到 实践 (第 4 版 ) 


赢得 世界 赞誉 的 SQL 经 典 著作 
令 作者 连续 20 年 获 微软 MVP， 凝 结 半 个 多 世纪 的 数据 库 经 验 
令 亚马逊 数据 库 图 书 榜 单 霸 榜 20 年 





书号 : 978-7-115-53401-9 
定价 : 149.00 元 


SQL 必 知 必 会 (第 5 版 ) 


令 中 文 版 累计 销量 超 15 万 册 
令 麻 省 理工 学 院 、 伊 利 诺 伊 大 学 等 众多 院 校 的 参考 教材 


= 





> QOS 


书号 : 978-7-115-53916-8 
定价 : 49.00 元 


数据 预 处 理 从 入 门 到 实战 : 基于 SQL、R、Python 


令 KDD CUP 2015 亚 军 得 主 多 行业 实战 经 验 总 结 
令 54 道 例题 ， 涵 盖 常 见 数 据 预 处 理 技术 

3 个 实战 案例 ， 快 速 提升 应 用 能 力 

令 3 种 语言 实现 对 比 ， 代 码 优化 关键 点 一 目 了 然 
令 配套 数据 + 源码 可 下 载 

书号 : 978-7-115-55232-7 

定价 : 89.00 元 


SQL 基础 教程 (第 2 版 ) 


令 日 本 知名 数据 库 工程 师 写 给 初学 者 的 实用 指南 

令 107 张 图 表 +209 段 代码 +88 个 法 则 ， 让 “菜鸟 ”完美 进 阶 

基于 标准 SQL 编写 ， 明 示 各 RDBMS ( PostgreSQL/DB2/MySQL/ 
Oracle/SQL Server ) 的 差异 

令 双色 印刷 ， 排 版 独特 ， 让 你 读 起 来 不 累 

am 书号 : 978-7-115-45502-4 


加 "rem 各 A 


ee 定价 : 79.00 元 
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回复 “大 数据 ”查看 相关 书 单 


© 
微 博 连接 
关注 @ 图 灵 教 育 每 日 分 享 T 好 书 


全 


QQ 连接 


图 灵 读 者 官方 群 I: 218139230 
图 灵 读 者 官方 群 [: 164939616 


图 灵 社 区 
iTuring.cn 
在 线 出 版 ,电子 书 ,《 码 农 》 杂志 , 图 灵 访 谈 


OREILLY 


Presto 实战 


作为 高 性 能 分 布 式 SQL 查 询 引 擎 ，Presto 能 够 针对 不 同 的 数据 源 高 
效 、 快 速 地 执行 交互 式 分 析 。 大 数据 的 兴起 使 得 数据 存储 机 制 多 
样 化 。 面 对 标准 不 一 的 存储 系统 ， 你 可 以 利用 Presto 轻 松 打 破 壁 
本 书 由 Presto 项 目 创始 成 员 参 与 执笔 。 你 将 学 会 用 简单 的 Presto 语 
句 快速 查询 多 个 数据 源 ， 把 握 SQL-on-Anything 的 精 朵 。 在 任何 规 
模 、 任 何 存储 系统 、 任 何 环境 中 ， 你 都 能 发 挥 SQL 的 威力 。 


。 入 门 : 探索 Presto 的 用 例 ， 学 习 安 装 、 配 置 和 使 用 Presto。 

。 进 阶 : 深入 理解 Presto 的 架构 ， 在 生产 环境 中 部 署 Presto， 学 
习 连 接 器 实例 和 SQL 高 级 特性 。 

。 实践 : 了 解 如 何在 生产 环境 中 使 用 Presto， 保 证 安全 性 ， 监 控 
负载 ， 进 行 查询 调 优 ， 与 其 他 工具 集成 。 


马 特 . 富 勒 (Matt Fuller)，Starburst 公 司 联合 创始 人 。 


曼 弗 雷 德 莫 泽 (Manfred Moser)， 开 源 社区 拥护 者 、 技 术 作 家 、 培 
训 师 ，Starburst 公 司 软件 工程 师 。 


马丁 . 特 拉 韦 尔 索 (Martin Traverso)，Presto 项 目 创始 成 员 ，Presto 软 
件 基金 会 联合 创始 人 ，Starburst 公 司 首席 技术 官 。 
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“你 可 以 通过 这 本 书 学 习 从 使 用 场 


景 到 如 何 大 规模 运行 Presto 集 群 

的 重要 知识 。” 

Ashish Kumar Singh 

Pinterest 大 数据 查询 处 理 平台 
技术 负责 人 





“如 果 想 构建 现代 化 的 分 析 技 术 栈 ， 


那么 这 本 书 值得 一 读 。” 
一 一 JayKreps 
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